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改革 开放 以 来 ， 高 等 统计 教育 有 了 很 大 的 发 展 。 随 着 课程 设置 的 不 断 调整 ， 





有 不 少 教材 出 版 ， 同 时 也 翻译 引进 了 一 些 国外 优秀 教材 。 作 为 培养 我 国 统计 专门 
人 才 的 摇篮 ， 中 国人 民 大 学 统计 学 系 自 1952 年 创建 以 来 ， 走 过 了 风 风 雨 雨 , 一 
直 坚 持 着 理论 与 应 用 相 结合 的 办 学 方向 ， 培 养 能 够 理论 联系 实际 、 解 决 实际 问题 
的 高 层次 人 才 。 随 着 新 知识 经 济 利 网 络 时 代 的 到 来 ， 我 们 在 教学 科研 的 实践 中 ， 
深切 地 感受 到 ， 无 论 是 自然 科学 领域 、 社 会 科学 领域 的 研究 ， 还 是 国家 宏观 管理 
和 企业 生产 经 营 管理 ， 甚 至 在 人 们 的 日 常生 活 中 ， 信 息 需 求 量 日 益 增多 ， 信 息 处 
理 技术 更 加 复杂 ， 作 为 信息 技术 支柱 的 统计 方法 ， 越 来 越 广泛 地 应 用 于 各 个 领 


域 。 


























面 对 新 的 形势 ， 我 们 一 直 在 思索 ， 课 程 设置 、 教 材 选 择 、 教 学 方式 等 怎样 才 





能 使 学 生 适 应 社会 经 济 发 展 的 客观 需要 。 在 反复 酝酿 、 不 断 尝试 的 基础 上 ， 我 们 
决定 与 统计 学 界 的 同 全 ， 共 同 编写 、 出 版 一 套 面向 21 世纪 的 统计 学 系列 教材 。 


这 套 系列 教材 聘请 了 中 科 院 院士 、 中 国 科技 大 学 陈 希 三 教授 ， 上 海 财经 大 学 





数量 经 济 研究 院 张 尧 庭 教授 ， 中 国 科学 院 数 学 与 系统 科学 研究 所 汉 土 政 研 究 员 等 
作为 编 委 。 他 们 长 期 任 中 国人 民 大 学 的 兼职 教授 ， 一 直 关 心 、 支 持 着 统计 学 的 学 
科 建 设 和 应 用 统计 的 发 展 。 中 国人 民 大 学 应 几 统 计 科 学 研究 中 心 2000 年 已 成 为 
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国家 级 研究 基地 ， 这 些 专家 是 首 批 专职 或 兼职 研究 人 员 。 这 一 开放 性 研究 基地 的 
运作 ,将 有 利于 提升 我 国 应 用 统计 科学 研究 的 水 平 ， 也 必 将 进一步 促进 高 等 统计 
教育 的 发 展 。 

这 套 教材 是 我 们 奉献 给 新 世纪 的 ， 希 望 它 能 够 为 促进 应 用 统计 教育 水 平 的 提 
高 增添 一 份 力量 。 这 套 教材 力求 体现 以 下 特点 : 

第 一 ， 在 教材 选择 上 ， 主 要 面向 经 济 类 统计 学 专业 。 选 材 既 包括 统计 教材 也 
包括 风险 管理 与 精算 方面 的 教材 。 尽管 名 为 统计 学 系列 教材 ， 但 并 不 求 大 、 求 
全 ， 而 是 力求 精 选 。 对 于 目前 已 有 的 内 容 较 为 成 熟 、 适 合 教学 需要 、 公 认 的 较 好 
的 教材 ， 并 未 列 人 本 次 出 版 计划 。 

第 一 ， 每 部 教材 的 内 容 和 写作 ， 注 意 广泛 吸收 国内 外 优秀 教材 的 成 果 。 教 材 
力求 简明 易 懂 、 内 容 系统 和 实用 ， 注 重 对 统计 方法 思想 的 阐述 ， 并 结合 大 量 实际 
数据 和 实例 说 明 统 计 方 法 的 特点 及 应 用 条 件 。 

第 三 ， 强 调 与 计算 机 的 结合 。 为 着 力 提高 学 生 运用 统计 方法 分 析 解 决 问题 的 
能 力 ， 教 材 所 涉及 的 统计 计算 ， 要 求 运用 目前 已 有 的 统计 软件 。 根 据 教 材 内 容 
选择 使 用 SAS、SPSS、TSP、STATISTICA、EVievs、MINITAB、Excel 等 。 

感谢 中 国人 民 大 学 出 版 社 的 同志 们 ， 他 们 怀 着 发 展 我 国 应 用 统计 科学 的 热情 
和 提高 统计 教育 水 平 的 愿望 ， 经 过 反复 论证 ， 使 这 套 教材 得 以 出 版 。 感 谢 参与 教 
材 编写 的 同行 专家 、 统 计 学 系 的 教师 。 愿 大 家 的 辛勤 劳动 能 够 结 出 丰硕 的 果实 。 
我 们 期 待 着 与 统计 学 界 的 同仁 ， 共 同 创 造 应 用 统计 辉煌 的 明天 。 





























易 丹 辉 
2000 年 8 月 
于 中 国人 民 大 学 
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抽样 调查 是 统计 学 专业 的 专业 基础 课 ， 对 于 非 统计 专业 的 学 生 ， 有 关 抽 样 调 
查 的 知识 和 技能 也 非常 重要 。 抽 样 调查 在 国际 上 已 有 很 长 的 发 展 历史 ， 它 是 政府 
部 门 、 各 社会 团体 、 企 业 单位 了 解 情况 和 搜集 信息 的 最 主要 方式 。 近 年 来 ， 抽 样 
调查 在 我 国 得 到 了 广泛 的 应 用 。 实 践 证 明 ， 抽 样 调查 是 搜集 信息 资料 的 一 种 科学 
方法 和 手段 。 在 信息 化 的 今天 ， 抽 样 技术 在 我 国 必 将 有 更 广泛 的 推广 和 应 用 。 

从 国际 上 看 ， 虽 然 抽 样 调查 的 理论 与 方法 有 了 很 大 发 展 ， 但 作为 讲授 这 门 知 
识 的 基础 课程 而 言 ， 其 内 容 体系 已 经 比较 成 熟 。 综 观 国际 间 流 行 的 有 关 抽 样 技术 
的 教科 书 ， 其 基本 内 容 大 致 相同 ， 这 些 基本 内 容 主要 指 不 同 的 抽样 方法 设计 ， 包 
括 简单 随机 抽样 、 分 层 随 机 抽样 、 整 群 抽样 、 系 统 抽样 、 多 阶段 抽样 、 比 率 估 
计 、 团 上 估计 。 也 有 一 些 教科 书 还 包括 了 二 重 抽样 、 不 等 概 抽样 等 。 上 述 内 容 在 
本 书 中 均 有 讨论 。 当 然 ， 能 够 对 这 些 知 识 很 好 地 进行 论述 ， 在 有 限 的 篇 幅 内 把 相 
关内 容 讲 清 、 讲 透 ， 也 不 是 一 件 容易 的 事 ， 但 我 们 努力 去 做 了 。 

在 本 书 的 写作 过 程 中 ， 编 著者 们 参阅 了 大 量 的 参考 文献 ， 在 汲取 他 人 所 长 的 
同时 ， 结 合 自己 的 教学 经 验 和 从 事 抽样 调查 项 目的 实践 ， 做 一 些 总 结 、 归 纳 和 概 
括 。 本 书 有 以 下 特色 : 

1. 强调 抽样 技术 的 实际 应 用 。 抽 样 技 术 有 很 强 的 理论 性 ,但 我 们 仍 把 它 看 
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成 号 一 门 应 用 性 课程 ， 在 论述 中 侧重 于 方法 的 应 用 ， 如 不 同方 法 的 应 用 场合 、 应 
用 条 件 、 不 同方 法 的 特点 比较 等 。 为 了 与 全 书 的 基调 和 风格 一 致 ， 本 书 没有 拘泥 
于 理论 推导 ， 而 是 将 必要 的 数学 推导 放 在 各 章 后 的 附录 中 。 若 略 去 这 些 推导 ， 并 
不 妨碍 对 书 中 内 容 的 理解 。 本 书 的 一 部 分 例题 和 一 部 分 习题 以 我 们 所 从 事 过 的 实 
际 调查 项 日 为 背景 。 习 题 中 涉及 的 计算 部 分 ， 均 给 出 了 参考 答案 ， 便 于 学 习 者 核 
对 。 
2. 书 中 有 两 章 内 容 在 其 他 教科 书 中 不 多 见 ， 但 却 非常 实用 。 一 章 是 “复杂 
样本 的 方差 估计 ”， 从 理论 上 讲 这 一 章 虽 然 复 杂 一 些 ， 但 符合 现代 抽样 技术 的 发 
展 趋势 ， 计 算 机 技术 的 发 展 也 为 复杂 样本 的 方差 估计 提供 了 方便 。 事 实 上 ， 许 多 
方差 估计 软件 中 的 算法 就 是 取 自 其 中 。 另 一 章 是 “调查 中 的 非 抽 样 误差 "。 大 量 
抽样 调查 的 实践 表明 ， 非 抽样 误差 正在 成 为 影响 调查 数据 质量 的 一 个 十 分 重要 的 
因素 。 本 章 讨论 了 几 种 主要 的 非 抽样 误差 产生 的 原因 、 非 抽样 误差 的 测定 异型、 
控制 非 抽 样 误差 的 方法 以 及 对 由 于 无 回答 造成 缺失 数据 进行 调整 的 方法 。 

3. 加 强 案例 分 析 。 本 书 选取 美国 人 口 状况 油 查 (current population survey， 
CPS) 作为 案例 ， 用 一 章 篇 幅 予 以 介绍 和 前 析 。 之 所 以 选择 CPS， 是 因为 它 是 国 
际 上 最 著名 的 大 型 居民 人 户 抽样 调查 项 目 之 一 ， 有 60 多 年 的 发 展 历史 ， 集 世界 
调查 统计 学 家 思想 之 精华 ， 其 设计 科学 、 巧 妙 ， 是 抽样 调查 中 的 经 典 之 作 。 我 们 
从 CPS 的 设计 与 方法 中 可 以 得 到 许多 有 益 的 思考 与 借 监 。 

4. 加 强 抽样 技术 与 计算 机 的 结合 。 抽 样 调查 中 一 项 十 分 重要 而 又 繁杂 的 工 
作 是 计算 估计 量 方 差 ， 但 目前 传统 的 统计 软件 还 无 法 直接 计算 不 同 抽样 设计 的 估 
计量 方差 。 针 对 这 种 情况 ， 本 书 在 附录 中 用 一 定 篇 晤 介绍 了 方差 估计 的 计算 机 专 
用 软件 。 这 部 分 包括 两 方面 的 内 容 ， 一 个 是 目前 国际 上 常用 的 方差 估计 软件 的 一 
般 性 介绍 ， 另 一 个 是 对 “PC CARP” 软 件 使 用 的 具体 介绍 。 该 软件 的 功能 比较 
齐全 ， 能 够 满足 通常 条 件 下 的 方差 估计 ， 它 最 主要 的 特点 是 操作 比较 简单 ， 价 格 
比较 便宜 ， 更 适合 于 在 发 展 中 国家 推广 和 使 用 。 

本 书 可 以 作为 统计 学 专业 学 生 抽样 调查 方面 课程 的 教材 ， 也 可 以 用 作 非 统计 
专业 学 生 和 各 类 人 员 学 习 抽样 技术 的 教材 或 学 习 参考 书 。 本 书 涉及 内 容 较 多 ， 学 
习 中 可 以 根据 不 同 的 需求 ， 有 所 取舍 。 

本 书 由 金 勇 进 博士 、 落 妍 博士 、 李 序 颖 博士 共同 编写 。 金 勇 进 编写 第 1、6、 
11、12 章 ， 并 负责 本 书 编写 大 纲 的 设计 、 书 稿 的 组 织 和 全 书 最 后 的 统 繁 ， 蒋 妍 
编写 第 7、9、10 章 及 附录 1、2; 李 序 颖 编写 第 2、3、4、5、8 章 。 书 中 的 部 分 
习题 选 白 所 列 的 参考 书目 ， 想 不 一 一 列举 。 书 中 的 大 多 数 例题 ， 来 自 编著 者 所 做 
项 目的 实际 案例 ， 或 借鉴 其 他 参考 书 中 的 例题 进行 设计 ， 个 别 典型 的 例题 数据 取 
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自 于 其 他 书 中 ,在 引用 处 均 有 注 明 。 在 此 特 向 有 关 作者 和 出 版 社 表示 谢意 。 

在 本 书写 作 过 程 中 ， 得 到 了 各 方面 的 大 力 支持 。 编 写 大 纲 经 过 教材 编 委 会 的 
认真 讨论 。 中 国 科 学 院 数 学 与 系统 科学 研究 院 汉 土 雍 研 究 员 ， 中 国人 民 大 学 伐 加 
助教 授 对 本 书 的 初稿 进行 了 仔细 、 认 真 的 审阅 ， 提 出 了 许多 宝贵 意见 。 在 此 ， 特 
向 他 们 表示 由 衷 的 感谢 。 最 后 我 们 要 感谢 中 国人 民 大 学 出 版 社 为 出 版 本 书 给 予 的 
大 力 支 持 。 

尽管 我 们 尽 了 最 大 努力 ， 但 书 中 仍 会 有 一 些 缺 个 。 对 于 书 中 的 不 足 ， 息 请 各 
位 专家 和 读者 提出 宝贵 意见 。 



































金 勇 进 
2002 年 3 月 
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HH 第 1 章 
绪论 
8$1.1 统计 信息 与 抽样 调查 
一 、 统 计 信息 的 重要 性 


社会 的 发 展 离 不 开 统计 资料 ,对 统计 信息 的 收集 和 和 分析 的 实践 活动 很 早 以 前 
就 有 了 。 我 国 早 在 2 000 多 年 前 , 越 国 大 大 范 艺 ( 陶 朱 公 ) 就 曾 对 商品 供求 和 价格 变 
动 之 闻 的 关系 说 过 :“ 论 其 有 余 不 足 , 则 知 贵贱 , 贵 上 极 则 反 贱 , 贱 下 极 则 反 贵 。” 意 
思 是 ,了 解 市 场 商 品 供求 的 信息 ,可 以 预见 价格 的 涨 落 ,价格 涨 到 一 定 限度 ,反而 会 
下 降 ; 价 格 下 降 到 一 定 限度 ,反而 会 上 升 ,一 些 精明 的 小 生产 者 和 商人 ,就 注意 为 自 
己 的 生产 和 经 营 收集 市 场 情 报 ,作为 经 营 的 参考 ,不 过 那 时 商品 经 济 还 不 发 达 , 市 
场 规模 狭小 ,人 们 对 统计 信息 重要 性 的 认识 还 远 不 如 现代 人 那样 深刻 。 

20 世纪 以 来 ,生产 力 得 到 了 空前 发 展 ,市 场 迅速 扩大 ,企业 之 间 的 竞争 日 益 加 
剧 。 了 解 市 场 的 商情 变化 ,了 解 竞争 对 手 的 情况 ,以 此 作为 生产 经 营 决策 的 依据 ,这 
些 都 需要 统计 信息 。 社 会 化 大 生产 的 发 展 ,加 速 了 白 然 经 济 的 瓦解 ,各 经 济 部 门 之 
间 的 相互 依赖 进一步 加 强 。 生 产 规模 越 大 ,就 越 需 要 以 客观 现实 为 依据 ,以 统计 信 
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号 为 依据 ,统计 信息 不 仅 为 企业 答 奋 所 需要 ,也 为 国家 符 理 所 需要 。 例 如 ,政府 要 制 
定 工资 或 价格 政策 ,就 需要 居民 的 家 庭 收 支 、 家 庭 生 活 状 况 和 市 场 价 格 水 平 资料 ; 
要 制定 有 关 进 出 口 贸易 的 收 策 , 襄 需要 各 种 产品 的 生产 和 使 用 资料 ;要 了 解 人 民生 
酒 的 改善 情况 ,就 需要 出 生 阐 ,死亡 率 、 人 口 平均 奉命 .人民 受 教 育 程度 及 物质 和 精 
神 文化 消费 方面 的 资料 :等 等 ,现代 科学 技术 的 迅猛 发 展 ,尤其 是 以 计算 机 为 核心 
的 信息 处 理 技术 的 迅速 发 展 ,使 得 信息 逐渐 形成 一 个 专门 的 行业 部 门 , 越 来 越 多 的 
人 转向 这 个 部 门 ,从 事 信 息 的 收集 处理 ,传递 和 存储 等 工作 。 人 们 清楚 地 看 到 , 充 
分 的 信息 资源 和 有 效 的 信息 处 理 技术 是 正确 决策 的 必要 条 件 , 它 会 产生 巨大 的 物 
质 财富 ,人 们 称 这 种 变化 为 信息 时 代 * 而 统计 正 是 获取 信息 的 重要 手段 之 一 ,统计 
信息 是 信息 的 重要 组 成 部 分 -可 以 说 ,没有 充分 ,准确 的 统计 信息 ,就 不 会 有 科学 的 
决策 。 社 会 越发 展 ,对 统计 信息 的 需求 也 就 越 强 鹿 。 














二 ,数据 的 类 型 

统计 数据 展示 了 客 驱 现 象 数量 方面 的 特征 ,不 同 数据 的 性 质 各 特点 存在 着 差 
别 , 因 此 可 以 把 统计 数据 分 为 两 大 类 , 即 调查 数据 和 试验 数据 。 

调查 数据 一 般 是 指 客观 上 已 经 存在 ,但 需要 通过 观察 或 询问 才能 得 到 的 数据 。 
例如 社会 现象 规模 水平. 相互 关 系 和 发 展 变化 的 资料 基体 说 调查 数据 有 以 下 几 
个 特点 ,首先 ,这 类 资料 大 多 与 时 间 有 关 , 数 据 所 展示 的 是 特定 时 期 或 时 点 上 的 结 
果 , 如 一 定时 期 内 的 生产 量 一 定时 点 上 的 人 口 数 等 ,其 次 ,这 类 资料 会 随 着 时 间 的 
变化 而 改变 ,因此 定期 的 收集 就 非常 重要 ,因为 每 次 收集 的 结果 不 仅 展示 了 研究 对 
象 昌 前 的 状态 ,而且 把 以 往 收集 的 资料 汇集 在 一 起 ,构成 时 间 数 列 , 可 以 据 此 分 析 
事物 之 间 的 相互 影响 和 发 展 变化 ,这 就 为 信息 的 进一步 开发 提供 了 广阔 的 空间 。 最 
后 ,也 有 一 些 数据 ,它们 在 短期 内 变化 不 大 ,相对 比较 稳定 。 最 常见 的 就 是 一 个 国家 
或 地 区 的 地 理 和 地 质 资料 ,如 地 形 ,气候 条 件 .土壤 类 型 .矿物 储量 等 ,这 类 数据 的 
调查 往往 技术 性 强 ,需要 这 方面 的 专业 人 员 使 用 专门 的 设备 进行 。 这 类 调查 的 成 本 
较 高 ,而 一 旦 取得 这 方 而 的 资料 就 相对 比较 稳定 ,不 需要 经 常 进行 。 

试验 数据 通常 与 自然 科学 的 研究 相 联系 ,其 特点 是 在 试验 进行 前 尚未 发 生 ， 
而 需要 通过 事先 的 试验 设计 ,在 控制 的 条 件 下 进行 试验 ,并 将 试验 的 过 程 及 结果 加 
以 记 天 和 将 理 .试验 通常 是 可 以 重复 进行 的 ,如 化 肥 的 增产 效果 、 防 治 病 忠 最 有 效 
的 杀 忠 剂 . 某 种 化 学 变化 合适 的 温度 等 。 这 种 类 型 的 数据 往往 与 试验 的 条 件 有 关 ， 
若 改 变 试验 的 控制 因素 ,试验 结果 就 会 发 生变 化 ,试验 的 次 数 可 以 是 无 限 的 。 

本 书 所 讨论 的 ,是 人 文 社会 科学 领域 中 的 抽样 调查 ,因此 ,后 面 所 涉及 的 内 容 
都 是 以 调查 数据 为 背景 。 
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三 ,抽样 调查 与 抽样 类 型 

抽样 调查 是 一 种 非 全 面 性 的 调查 , 它 是 指 从 研究 对 象 的 全 体 (总 体 ) 中 抽取 一 
部 分 单位 作为 样本 ,根据 对 所 抽取 的 样本 进行 调查 , 获得 有 关 总 体 目标 量 的 了 解 。 
这 足 广 义 的 抽样 调查 的 概念 。 

从 总 体 抽取 样本 的 方法 看 ,可 以 分 为 两 类 抽样 :一 类 足 非 概率 抽样 ;一 类 是 概 

非 概 率 李 样 没有 严格 的 定义 ,这 类 抽样 右 许 多 不 同 的 其 体 抽取 样本 的 方法 。 我 
国 社 会 经 济 统计 学 教科 书 中 谈 到 的 重点 调查 和 典型 调查 ,市场 调查 教科 书 中 谈 到 
的 有 目的 抽样 ,判断 抽样 ,方便 抽样 和 定额 抽样 等 都 属于 非 概率 抽样 非 概率 抽样 
的 共同 特点 是 ,抽取 样本 时 不 是 按照 随机 原则 ,而 是 根据 主观 判断 有 目的 .有 意识 
地 进行 ,或 根据 方便 的 原则 进行 ,不 同 的 非 概率 抽样 方法 都 有 各 自 的 特点 ,如 便于 
组 织 、 节 省 费用 .迅速 快捷 等 等 ,因此 不 论 对 政府 统计 而 言 ,还 是 对 市 场 调 查 而 言 ， 
非 概 率 抽样 方法 都 是 不 可 缺少 的 ,但 是 , 洒 用 非 概 率 抽样 方法 获得 的 数据 不 能 用 来 
计算 抽样 误差 ,不 能 从 概率 的 意义 上 控制 误差 并 以 此 来 保证 推断 的 准确 性 ,因此 ， 
如 果 调 查 的 目的 是 用 样本 数据 推断 总 体 的 目标 量 ,并 以 一 定 的 把 握 程度 保证 总 体 
目标 量 落 在 目的 范围 ,这 时 非 概率 抽样 是 不 适合 的 。 
概率 抽样 也 称 随机 抽样 , 它 具 有 以 下 儿 个 特点 ;: 
1. 按 一 定 的 概率 以 随机 原则 抽取 样本 。 所 谓 随机 原则 就 是 在 抽取 样本 时 排除 
主观 上 有 意识 地 抽取 调查 单元 ,使 每 个 单元 都 有 一 定 的 机 会 被 抽 中 ,需要 注意 的 
是 ,随机 不 等 于 “随便 ”, 随 机 有 严格 的 科学 含义 ,可 以 用 概率 来 描述 ,而 “随便 ” 则 
带 有 人 为 的 主观 的 因素 。 例 如 ,要 在 一 栋 楼 内 抽取 10 位 居民 作为 样本 , 若 采用 随机 
原则 ,就 需要 事先 将 居住 在 该 楼 的 居民 按 某 种 顺序 编 上 号 ,通过 一 定 的 随机 化 程 
序 , 如 使 用 随机 数 表 抽取 出 样本 ,这 样 可 以 保证 居住 在 该 楼 的 每 位 居民 都 有 一 定 的 
机 会 被 选中 。 而 如 果 调 查 人 员 站 在 楼 前 ,将 最 先 走出 楼 外 的 10 位 居民 选 人 样本 ,就 
是 随便 而 不 是 随机 ,这 种 方法 不 能 使 每 个 单元 都 有 一 定 的 机 会 被 选中 ,已 经 在 楼 外 
的 人 不 可 能 被 选中 ,由 于 某 些 原因 在 调查 时 段 不 可 能 外 出 的 人 也 没有 机 会 被 选中 。 
随机 与 随便 的 本 质 区 别 在 于 ,中 洛 按 照 给 定 的 人 样 概率 ,通过 一 定 的 随机 化 程序 抽 
取样 本 单元 。 

2. 每 个 单元 被 抽 中 的 概率 是 已 知 的 ,或 是 可 以 计算 出 来 的 。 

3. 当 用 样本 对 总 体 目标 量 进 行 估计 时 ,要 考虑 到 该 样本 (或 每 个 样本 单元 ) 被 
抽 中 的 概率 这 就 是 说 ,估计 县 不 仅 与 样本 单元 的 观测 值 有 关 , 也 与 其 人 样 概率 有 
关 。 
























































需要 提 及 的 是 ,概率 抽样 与 等 概率 抽样 是 两 个 不同 的 概念 。 当 我 们 谈 到 概率 抽 
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详 时 ,是 指 总 体 中 的 每 个 单元 都 有 一 定 的 非 零 概 阐 被 抽 中 ,单元 之 间 被 抽 中 的 概率 

可 以 相等 ,也 可 以 不 等 兰 是 前 者 , 称 为 等 概率 抽样 ;若是 后 者 , 称 为 不 等 概率 抽样 。 
概率 抽样 最 主要 的 优点 是 ,可 以 依据 调查 结果 计算 抽样 误差 ,从 而 得 到 对 总 体 

你 量 进行 推断 的 可 靠 程度 。 从 另 一 个 方面 讲 , 也 可 以 按照 要 求 的 精确 度 ,计算 必 

贤 的 样本 单元 数 日 ,所 有 这 些 ,都 为 对 调查 方案 的 评估 提供 了 有 力 的 依据 。 

本 书后 面 讨 论 的 抽样 调查 方法 , 均 是 对 概率 抽样 而 言 ,因此 可 以 把 狭义 的 抽样 

漳 村 视 为 概率 抽样 调 杏 . 





上 四、 抽样 调 查 的 作用 
1. 节约 费用 。* 柚 样 调查 能 节约 人 力 、 物 力 和 财力 ,从 而 大 大 降低 调查 费用 。 特 
别 是 当 总 体 较 大 时 ,抽样 调查 只 调查 总 体 中 的 一 小 部 分 ,因而 节约 费用 的 特点 表现 
得 尤为 突出 。 
2. 时 效 性 强 。 有 些 调查 其 有 很 强 的 时 效 性 ,要求 在 较 短 的 时 间 内 究 成 并 提供 
调查 数据 。 与 全 面 调查 相 比 ,抽样 调查 所 调查 的 单元 少 ,数据 采 集 和 汇总 整理 的 工 
作 量 较 小 ,内 而 可 以 更 快 地 提供 调查 结果 。 因 此 ,对 于 时 效 性 要 求 比较 强 的 调查 , 通 
常 采用 抽样 调查 的 方式 。 

3. 可 以 承担 全 面 调查 无 法 胜任 的 项 目 。 有 些 事物 或 客观 现象 ,需要 道 过 调查 
掌握 其 数据 ,但 又 不 可 能 进行 全 面 调查 ,这 时 必须 采用 抽样 调查 ,如 居民 的 家 庭 收 
支 状况 ,电视 节目 的 收视 率 , 以 及 观察 或 测试 具有 破坏 性 ,如 显像管 的 寿命 ,种子 的 
发 芽 率 等 ,这 些 项 目的 调 但 只 能 采用 抽样 的 方法 。 

4. 有 助 于 提高 调查 数据 的 质量 。 虽 然 抽 样 调查 只 调查 总 体 中 的 一 小 部 分 ,用 
部 分 的 调查 结果 推断 总 体 ,存在 着 抽样 误差 ,但 这 只 是 问题 的 一 个 方面 。 抽 样 调查 
节约 费用 ,时 效 性 强 ,在 一 些 情况 下 ,会 比 全 面 调 查 得 到 更 准确 的 结果 。 这 是 因为 一 
项 调查 的 误差 来 自 于 多 个 方面 ,全 面 调查 由 于 参与 的 人 员 多 ,涉及 的 范围 大 ,虽然 
没有 抽样 误差 ,但 在 数据 采集 和 数据 汇总 整理 过 程 中 却 有 产生 其 他 误差 的 可 能 性 ， 
所 以 调查 规模 并 不 是 越 大 越 好 .与 全 面 调查 相 比 ,抽样 调查 的 工作 量 小 ,这 就 为 使 
用 素质 较 高 的 工作 人 员 并 对 其 进行 深 人 培训 创造 了 条 件 . 此 外 ,可 以 对 调查 过 程 进 
行 吧 为 仔细 的 监 将 ,检查 和 指 异 ,使 得 抽样 调和 所 得 到 的 数据 质量 比 同 样 的 全 面 调 
数据 质 最 更 高 ,从 而 使 调 林 的 总 误差 更 小 。 












































五 抽样 调查 与 普查 
普查 是 一 种 全 面 调查 的 方法 ., 它 是 指 对 研究 总 体 中 的 所 有 单 苑 逐一 进行 的 调 
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查 。 与 全 面 调查 机 比 ,抽样 调查 虽然 有 许多 特点 和 长 处 ， 


但 抽样 调查 不 能 代替 普查 ， 


它们 各 有 自己 特殊 的 作用 .对 于 有 关 国计民生 的 重要 现象 ,有 时 需 要 了 解 总 体 中 每 





个 单元 的 情况 ,这 时 就 需要 采用 普查 ,普查 不 仅 能 够 提 


供 研究 对 象 的 总 体 情况 ,还 


可 以 提供 各 个 区 域 .各 种 类 划 的 统计 信息 ,以 满足 各 级 政府 行政 管理 的 需要 ,而 抽 


样 调 查 在 这 些 方面 则 存在 局 限 。 普 但 资料 还 是 构造 抽样 


框 的 极 好 素材 ,所 以 抽样 调 


要 与 普查 机 结合 ,相互 补充 ,它们 之 问 这 种 相辅相成 的 关系 ,表现 在 以 下 几 个 方 


而 。 
1. 抽样 调查 作为 普查 的 补充 前面 提 到 ,对 于 有 关 


国计民生 的 重要 现象 ,需要 


采用 普查 的 方法 ,了 解 总 体 中 每 个 单元 的 基本 情况 ,如 我 国 进行 过 的 普查 就 有 人 口 


普查 、 人 上 地 资源 普查 等 但 每 一 次 普 
不 可 能 经 











训 化 情况 进 和 估计 。 例 如 ,现在 我 国 每 10 年 进行 一 次 全 国 











查 都 需要 很 大 的 财力 投入 ， 


i :这 时 可 以 在 两 次 普查 之 间 , 采 用 抽样 调查 的 方法 ,对 该 种 现象 的 








性 的 人 口 普查 ,而 中 间 的 








每 华 进 行 一 次 人 口 变动 基 的 抽样 调查 , 对 当年 的 人 口 出 生 、 死 亡 ` 迁 移 等 情况 进行 


估计 ,抽样 调查 对 普查 起 到 了 补充 的 作用 。 








2. 用 抽样 调查 对 全 面 统计 资料 进行 评估 和 修正 。 例 如 ,在 一 项 普查 结束 后 , 通 





常 采用 抽样 调查 的 方法 ,对 随机 抽取 出 的 一 部 分 单位 进 


行 认真 仔细 的 复核 ,对 发 生 


错误 的 原因 进行 分 析 ,计算 央 差 率 ,作为 对 普查 结果 进行 质量 评估 和 数据 修正 的 依 


据 。 


3. 利用 抽样 调查 作 深层 次 分 析 。 由 于 普查 的 范围 广 , 接 受 调查 的 单位 多 ,因而 
调查 项 上 月 不 可 能 太 多 。 在 善 查 的 基础 上 ,根据 研究 的 需要 ,可 以 针对 某 些 问 题 ,采用 


抽样 调查 的 方法 ,获得 更 为 详尽 的 资料 ,进行 深层 次 的 多 


分 析 。 


4. 利用 抽样 调查 ,提前 获得 总 体 目标 量 的 估计 。 普 查 所 涉及 的 单位 多 ,数据 尘 
繁 ,整理 汇总 工作 需要 较 长 时 间 ,为 了 尽快 得 到 总 体 某 些 特征 的 数据 ,可 以 采用 抽 


样 的 方法 ,提前 得 到 这 些 主要 目标 量 的 估计 。 





5. 普查 为 抽样 框 提供 资料 普查 战 其 他 全 面 调查 资料 (例如 某 些 统计 报表 ) 可 





以 为 抽样 调查 所 需要 的 抽样 框 提供 资料 ,提供 辅助 信息 
样本 轮换 等 提供 基础 资料 。 


六 、 抽 样 调查 的 应 用 领域 
近 几 上 年 来 ,抽样 调查 的 理论 和 实践 有 了 迅速 发 展 














以 提高 抽样 效率 ,同时 也 为 


,抽样 调查 的 应 用 越 来 越 广 


泛 。 政 府 部 门 采用 抽样 调查 的 方法 收集 统计 信息 ,为 制定 政策 .进行 管理 提供 依据 ; 
学术 机 构 ,社会 出 体 和 企业 也 广泛 采用 抽样 调查 的 方法 收集 数据 ,进行 学 术 研究 ， 


了 解 社会 情况 ,了 解 市 场 状 况 - 可 以 说 ,凡是 需要 统计 数 


据 的 领域 ,都 有 可 能 采用 抽 
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样 调查 。 概 括 起 来 ,抽样 调查 常常 用 于 以 下 方面 。 

1. 社会 经 济 现象 的 调查 ,社会 经 济 滔 盖 的 范围 十 分 广泛 ,目前 我 国政 府 统计 
部 门 制度 化 的 抽样 调查 项 目 主要 有 ;人口 变动 抽样 调查 ; 农 产 量 抽样 调查 ;城市 居 
民 住户 抽样 调查 ;农村 经 济 抽样 调查 ;小 型 工业 企业 生产 情况 调查 ;小 型 商业 企业 
交易 情况 调查 ;物价 调查 ;等 等 。 各 部 委 根据 自身 业务 情况 进行 的 抽样 调查 项 目 就 
更 多 。 抽 样 调 僵 已 成 为 政府 部 门 闭 取 统计 信息 的 重要 方式 。 

2. 社会 性 的 民意 调查 。 民 意 调查 在 西方 国家 十 分 盛行 ,从 总 统 选举 到 居民 庆 
住 小 区 的 改造 ,凡是 人 们 关心 的 社会 问题 一 出 现 , 马 上 就 有 相应 的 调查 活动 伴随 。 
频繁 的 凋 查 活动 培育 出 一 批 放 界 闻名 的 ,如 盖 洛 甫 那样 的 调查 机 构 . 过 去 ,我 国 的 
社会 性 民意 调查 基本 上 是 一 片 处 女 地 , 随 着 改革 开放 的 不 断 推进 ,民意 调查 为 越 来 
越 多 的 人 所 重视 ,人 们 开始 在 这 片 沃 土 上 耕耘 。 报 刊 上 经 常见 到 由 各 种 学 术 单位 和 
调查 机 构 进行 民意 调查 的 调查 报告 ,问题 选择 之 精妙 ,涉及 领域 之 宽泛 都 是 过 去 的 
调查 所 无 法 比拟 的 。 社 会 性 的 民意 调查 已 成 为 调查 业 中 一 道 亮丽 的 风景 线 ,可 以 预 
言 ,人 们 一 定 会 在 社会 性 民意 调查 这 片 沃土 上 取得 更 丰硕 的 果实 。 

3. 市 场 调查 。 市 场 调查 是 企业 获取 市 场 信息 的 主要 工具 。 市 场 经济 越 发 展 , 竞 
争 越 激烈 ,市 场 信息 就 越 重要 。 市 场 漳 查 的 对 象 通常 是 消费 者 ,通过 调查 ,了 解 不 同 
消费 者 群体 有 关 商 品 消费 的 事实 、 动 机 和 意向 。 近 些 年 ,我 国 的 市 场 调查 发 展 很 快 ， 
涌现 出 大 量 的 从 事 市 场 调查 \ 咨 询 的 专业 性 机 构 。 我 国人 口 众多 ,是 一 个 户 大 的 消 
费 市 场 ,市 场 调查 在 我 国有 巨大 的 发 展 潜力 。 










































































$1.2 ”基本 概念 


一 、 有 目标 总 体 与 抽样 总 体 

目标 总 体 也 可 简称 为 总 体 ,是 指 所 要 研究 对 象 的 全 体 , 它 由 研究 对 象 中 所 有 性 
质 相 同 的 个 体 组 成 ,组 成 总 体 的 各 个 个 体 称 为 总 体 单 元 或 单位 。 例 如 ,我 们 要 研究 
北京 市 个 体 商 业 的 情况 ,目标 总 体 就 是 北京 市 所 有 从 事 商 业 活动 的 个 体 经 营 单位 ， 
每 个 个 体 经 营 单位 (或 摊位 ) 就 是 总 体 单元 (单位 )。 目 标 总 体 的 划分 有 时 比较 容 
易 , 有 时 就 不 太 容 易 。 以 上 面 个 体 商 业 的 调查 为 例 ,有 些 个 体 经 营 单位 主要 从 事 商 
品 生产 活动 ,同时 兼 做 商品 的 零售 ,这 些 单位 是 否 属于 个 体 商 业 单位 ,就 是 常 说 的 、 
统计 口径 问题 ,在 一 项 调查 中 ,要 对 日 标 总 体 的 范围 做 出 具体 规定 。 

抽样 总 体 是 指 从 中 抽取 样本 的 总 体 .按理 ,抽样 总 体 应 该 与 目标 总 体 完全 一 
致 ,但 实践 中 两 者 不 一 致 的 情况 却 时 常 发 生 。 仍 以 个 体 商 业 调 查 为 例 ,目标 总 体 是 

6 











北京 市 个 体 商业 经 营 单位 ,抽样 总 体 是 什么 呢 ? 这 时 可 以 有 不 同 的 选择 ,选择 之 一 
是 营业 执照 , 即 把 北京 市 工商 局 个 体 商业 的 营业 执照 记录 作为 抽样 总 体 , 从 中 抽取 
样本 .但 是 ,有 些 人 虽然 持 有 营业 执照 ,但 早已 不 再 从 事 商品 交易 活动 ,他 们 已 不 属 
于 身 标 总 体 范围 ,但 却 出 现在 抽样 总 体 当 中 ;还 有 一 些 人 无 照 经 党 ,他 们 应 该 属于 
目标 总 体 范围, 却 没有 出 现在 抽样 总 体 之 中 。 这 表明 ,要 保 证 目标 总 体 和 抽样 总 体 
完全 一致 ,不 是 一 件 容易 的 事情 .理想 的 状态 是 ,抽样 总 体 由 目标 总 体 所 决定 ,但 在 
实践 中 ,可 以 构造 的 抽样 总 体 却 有 可 能 反 过 来 决定 调查 中 的 目标 总 体 。 























二 、 抽 样 框 与 抽样 单元 
抽样 总 体 的 具体 表现 足 抽样 框 通 常 ,抽样 框 是 一 份 包含 所 有 抽样 单元 的 名 
单 , 给 每 一 个 抽样 单元 编 上 一 个 号 公 ,就 可 以 按 一 定 的 随机 化 程序 进行 抽样 。 对 抽 
样 框 的 基本 要 求 是 ,抽样 框 中 应 该 具有 抽样 单元 名 称 和 地 理 位 置 的 信息 ,以便 调查 
人 员 能 够 找到 被 选中 的 单元 。 在 电话 调查 中 ,电话 号 码 簿 便 是 抽样 框 , 它 起 到 了 提 
供 抽样 单元 信息 的 作用 。 好 的 抽样 框 不 仅 与 目标 总 体 保持 一 致 ,而 且 还 尽 可 能 多 地 
提供 与 研究 的 目标 量 有 关 的 辅助 信息 ,以 便 调查 人 员 利 用 这 些 辅 助 信息 搞 好 抽样 
设计 ,提高 抽样 估计 的 效率 。 

抽样 单元 是 构成 抽样 框 的 基本 要 素 , 抽 样 单元 可 以 只 包含 一 个 个 体 ,也 可 以 包 
含 若 干 个 个 体 ,抽样 单元 还 可 以 分 级 。 在 抽样 单元 分 级 情况 下 ,总体 由 若干 个 较 大 
规模 的 抽样 单元 组 成 ,这 些 较 大 规模 的 抽样 单元 称 为 初级 单元 ,每 个 初级 单元 中 又 
可 以 包含 苦于 个 规模 较 小 的 单元 , 称 为 二 级 单位 。 用 同样 的 方法 还 可 以 定义 三 级 单 
元 ,四 级 单元 等 ,例如 , 欲 对 北京 市 小 学 生 的 视力 状况 进行 抽样 调 盘 ,可 以 把 每 所 小 
学 视 为 初级 单元 ,把 小 学 校 中 的 班级 视 为 二 级 单元 ,把 学 生 视 为 三 级 单元 。 抽 取样 
本 的 顺序 为 先 抽取 学 校 ,再 抽取 班级 ,最 后 抽取 学 生 。 单 元 可 以 是 自然 形成 的 ,也 可 
以 是 人 为 划分 的 。 在 一 项 凋 查 中 ,单元 分 成 几 级 不 是 固定 不 变 的 。 在 前 面 的 例子 中 
如 果 采 用 抽取 小 学 校 ,然后 在 中 选 的 学 校 中 直接 抽取 接受 调查 的 学 生 而 越过 班 
时 ,学 校 就 是 初级 单元 ,学 牛 则 成 为 二 级 单元 。 通 常 把 接受 调查 的 最 小 一 级 抽样 
元 称 为 基本 抽样 单元 ,在 上 贞 的 例子 中 ,小 学 牛 是 基本 抽样 单元 。 抽 样 单元 的 不 
划分 ,是 针对 不 同 抽样 方法 而 言 的 - 若 抽样 单元 只 包含 一 个 个 体 ,并 且 没 有 分 级 ， 
之 相对 应 的 是 简单 随机 抽样 ; 若 抽 样 单元 中 包含 若干 个 体 ,与 之 对 应 的 是 整 群 
样 ;在 抽样 单元 分 级 情况 下 ,与 之 对 应 的 足 多 阶段 抽样 ,由 于 抽样 单元 可 以 分 级 ,于 
是 就 有 了 与 之 相对 点 的 不 同 级 上 的 抽样 框 .抽样 实践 中 , 抽 选 哪 一 级 抽样 单元 ,有 
同 级 的 抽样 框 即 可 。 






































可 世 泪 - 














三 ,总体 指标 与 样本 统计 量 

总 体 指 标 通 常 是 调查 的 目标 量 , 是 我 们 所 要 研究 的 总 体 中 某 种 特征 的 数量 表 
现 。 总 体 的 指标 可 以 有 很 多 ,这 些 指标 值 是 我 们 所 关心 但 又 是 未 知 的 ,抽样 调查 的 
目的 是 获得 对 这 些 目标 量 的 估计 。 设 总 体 有 六 个 基本 单元 , Y|,Y，，,…, Yn 为 各 基 
本 单元 的 数值 ,根据 总 体 指标 数学 处 理 方式 的 不 同 ,可 以 将 总 体 指 标 分 为 以 下 几 
种 。 

1. 总 体 总 量 ,也 称 总 体 总 和 {population total)。 如 某 地 区 粮食 总 产量 ,商品 零 
售 总 额 等 数学 表达 式 为 : 

Y= YY 

2. 总 休 均 值 ,也 称 总 体 平均 数 (population mean)。 如 某 地 区 粮食 平均 亩 产 ,人 

均 储 医 存 款 余额 等 ,数学 表达 式 为 ; 


3, 总 体 比例 {proportion) 。 如 全 部 产品 中 合格 品 所 占 比 例 , 物 成 菜 项 政策 的 人 
所 占 比 例 等 ,数学 表达 式 为 : 
Sy, 
P= 于 一, 当 第 i 单元 具有 某 个 特定 的 特征 时 , Y; = 1 ,否则 Y; = 0 
4. 总 体 比率 (population ratio)。 它 是 两 个 总 体 总 量 或 总 体 均值 之 比 。 如 固定 资 


产 利 用 率 , 人 均 可 支配 收入 变动 率 等 数学 表达 式 为 : 
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X XxX 

式 中 ,Y,Y 和 X, 为 两 个 总 体 指标 值 。 

把 从 总 体 中 按 一 定 程序 抽出 的 部 分 总 体 基本 单元 的 集合 称 为 样本 。 称 样本 中 
包含 基本 单元 的 个 数 * 为 样本 量 。 样 本 统计 重 是 用 样本 中 x 个 基本 单元 的 数据 构 
造 的 ,作为 对 总 体 目 标量 的 估计 。 统 计量 是 样本 的 函数 , 它 是 随机 变量 ,其 结果 取决 
于 抽样 设计 和 被 选 人 样本 的 总 体 基本 单元 的 特定 组 合 ,统计 量 的 真正 价值 不 在 于 
白 身 的 结果 是 多 少 ,而 在 于 提供 有 关 总 体 目标 量 的 信息 ,研究 统计 量 的 数学 期 望 和 
方差 是 抽样 理论 所 讨论 的 主要 问题 。 





< 





四 估计 量 方差 偏 倚 、 均 方 误差 
在 抽样 调查 中 ,把 样本 统计 量 作为 目标 量 的 估计 量 ,样本 值 便 是 目标 量 的 估计 
值 样 本 统计 最 是 一 个 随机 变量 ,在 随机 原则 下 抽取 上 出 的 不 同样 本 ,即使 每 个 样本 
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的 样本 量 ” 相同 ,而且 根据 同样 的 抽样 设计 ,来 自 于 同一 个 总 体 ,它们 各 自 的 结果 
也 会 不 同 。 估 计 值 与 总 体 指标 值 ( 待 估 参 数 ) 之 间 存 在 着 离 差 (或 差异 )。 这 种 离 差 
有 两 个 特点 :首先 ,它们 是 不 同 的 ,有 些 估计 值 与 待 估 参 数 的 离 差 大 ,有 些 离 差 小 ; 
有 些 离 差 为 正 值 ,有 些 离 差 为 负 值 ,其 次 ,这 些 离 差 虽然 客观 存在 ,但 却 是 未 知 的 ， 
因为 待 估 参 数 的 具体 值 我 们 并 不 知道 ,抽样 理论 要 回答 抽样 误差 问题 ,因此 考虑 估 
计 值 与 待 佑 参数 之 问 的 差异 ,就 只 能 从 概率 的 角度 去 陈述 , 即 如 果 相 同 的 抽样 重复 
多 次 ,估计 值 的 变化 情况 如 何 ,会 出 现 哪些 结果 ,每 个 结果 出 现 的 概率 是 多 少 , 离 差 
会 在 什么 样 的 范围 内 变化 ,等 等 .所 有 这 些 ,就 构成 了 知 计 量 的 分 布 ,我 们 把 估计 量 
分 布 的 方 益 称 为 估计 量 方差 , 它 是 从 平均 的 意义 上 说 明 估计 值 与 待 估 参 数 的 差异 
状况 ,也 是 对 抽样 方案 进行 评价 的 标准 之 一 。 从 这 个 意义 上 说 ,一 个 抽样 设计 方案 
比 另 一 个 抽样 设计 方案 好 ,是 因为 它 的 估计 量 方差 小 。 从 直观 上 看 ,就 是 按 这 种 方 
案 多 次 抽取 样本 ,大 多 数 的 估计 值 更 靠近 待 估 参 数值 ,这 意味 着 抽 到 一 个 好 样本 的 
可 能 性 更 大 。 对 估计 量 方差 开 方便 得 到 估计 量 标 准 差 , 也 称 为 标准 误差 或 标准 误 。 
它 的 作用 与 估计 量 方差 类 似 。 

偏 倚 是 指 按照 某 一 抽样 方案 反复 进行 抽样 ,估计 值 的 数学 期 望 与 待 估 参 数 之 
间 的 离 差 。 设 待 估 参 数 为 8, 其 估计 值 为 , 则 偏 傅 的 定义 为 : 

偏 倚 = E(8) -4 《1.1) 

偏 倚 与 估计 量 方差 不 同 ,估计 量 方差 是 由 于 抽样 的 随机 性 而 产生 的 一 种 随机 
性 误差 ,没有 系统 性 , 偏 倚 则 是 偏 于 菜 个 方向 的 系统 性 误差 。 此 外 ,估计 量 方差 可 以 
随 样本 量 的 增 大 而 减 小 ,而 大 多 数 的 偏 倚 (少数 有 偏 估计 量 除外 ) 并 不 随 样本 量 的 
增 大 而 减 小 * 偏 倚 产 生 的 原因 有 两 种 情况 ,一 种 是 估计 量 本 身 是 有 偏 的 ,这 时 估计 
量 的 数学 期 望 与 总 体 参数 不 一 致 ; 另 一 种 情况 是 非 抽 样 误差 因素 的 影响 。 

在 没有 偏 倚 的 情况 下 ,用 样本 统计 量 对 目标 重 进行 估计 ,要 求 估计 量 的 方差 越 
小 越 好 。 如 果 存在 信 倚 ,就 需要 把 估计 量 方差 和 偏 倚 综合 起 来 加 以 考虑 ,由 此 提出 
了 均 方 误差 的 概念 均 方 误差 指 所 有 可 能 的 估计 值 与 待 估 参 数 之 间 离 差 平方 的 均 


值 , 它 等 于 估计 量 方差 加 偏 倚 的 平方 , 令 待 估 参 数 为 9, 其 估计 值 为 96, 估计 值 的 数 
学 期 望 为 E(8), 则 均 方 误差 MSE(mean square error) 为 : 
MSE = £(0 -07 = El E(B)] + [EO) - 9]1? 
= ELO ~ ECO)] +[E(0) ~ 0] +2E[ - E(B)]IE(B) -0 
= 下 [8-E(9)12+[E(D) -6]2 = vO) + B2 (1.2) 


式 中 ,V(9) = EL9 ~ E(3)] 为 估计 量 方差 ;B? = [E(3) - 9] 为 偏 倚 的 平方 ,如 
9 












































果 估 计量 9 的 偏 倚 为 零 ,也 即 满足 

E(8)= 0 《1.3) 
则 称 9 为 无 篇 估 计量 .对 于 无 偏 合计 景 , 它 的 均 方 误差 等 于 它 的 估计 量 方差 。 根 据 
式 (1.2) ,可 以 将 估计 生 方 差 、 偏 傈 、 均 方 误差 的 关系 用 图 1.1 表示 。 


VMSE(O) 








AGO) 
图 1.1 估计 重 方差 、 偏 倚 及 均 方 误差 的 关系 
由 于 偏 倚 是 一 种 系统 性 误差 ,因而 在 抽样 调查 中 应 尽量 避免 ,但 古 , 也 有 一 些 
估计 量 是 有 偏 的 ,然而 由 于 偏 倚 小 ,估计 量 方 差 也 比较 小 ,从 而 使 均 方 误差 比较 小 ， 
这 时 选择 这 些 有 偏 的 估计 量 并 不 是 一 件 坏 事 ,一 般 说 来 ,人 们 更 想 向 于 把 均 方 误差 
MSE 作为 评价 抽样 方案 优 劣 的 准则 。 


五 ,抽样 误差 与 非 抽样 误差 
抽样 误差 是 抽取 样本 的 随机 性 造成 的 样本 值 与 总 体 值 之 间 的 差异 ,只 要 采用 
样 调查 ,抽样 误差 就 不 可 避免 ,抽样 误差 是 一 个 一 般 的 慨 念 ,可 以 用 不 同 的 量 值 


来 表示 。 估 计量 方差 Y(9) 及 估计 量 标 准 差 Y V (9) 都 是 抽样 误差 的 表现 形式 。 在 
样 调查 中 ,抽样 误差 虽 刘 法 消除 ,但 可 以 对 其 进行 计量 并 加 以 控制 控制 抽样 误 
差 的 根本 方法 是 改变 样本 量 。 在 其 他 条 件 相同 的 情况 下 ,样本 量 越 大 ,抽样 误差 越 
小 。 抽 样 误差 与 样本 量 的 平方 根 大 致 成 反比 关系 ,如 图 1.2 所 示 。 


























机 个 
样 
误 
其 


样本 量 
图 1.2 ”抽样 误差 与 样本 重 的 关系 





由 岗 1.2 可 以 看 出 , 山 样 误差 在 开始 时 随 样本 量 的 增 大 而 显著 缩小 ,但 经 过 一 
定 阶 段 后 便 趋 于 稳定 。 也 就 是 说 ,经 过 一 定 阶段 后 ,用 增 大 样本 量 的 方式 减少 抽样 
误差 一 般 是 不 合算 的 。 这 时 ,只 要 稍微 降低 一 些 精度 ,就 可 以 大 幅度 减少 样本 量 从 
而 节省 可 观 的 调查 费用 。 

非 抽样 误差 是 相对 于 抽样 误差 而 言 的 , 它 不 是 由 于 抽样 的 随机 性 ,而 是 由 于 其 
他 多 种 原因 引起 的 估计 值 与 总 体 参数 之 间 的 差异 。 例 如 ,由 于 调查 计划 不 周 、 调 查 
对 象 范围 划分 不 清 而 产生 的 误差 ;构造 抽样 框 时 ,目标 总 体 与 抽样 总 体 不 一 致 所 带 
来 的 抽样 框 误差 ;调查 过 程 中 由 于 无 加 答 或 回答 有 误 造成 的 误差; 填写 调查 表 以 及 
数据 录 人 和 汇总 过 程 中 产生 的 误差 ;等 等 非 抽样 误差 问题 将 有 专门 讨论 。 











六 ,精度 与 费用 

通常 ,精度 由 误差 来 表现 。 如 果 不 考虑 非 抽样 误差 , 则 精度 的 具体 体现 就 是 抽 
样 误差 。 抽 样 误差 越 小 ,说 明 用 样本 统计 量 对 总 体 参 数 进行 估计 时 的 精度 越 高 。 抽 
样 误差 与 样本 量 有 关 ,样本 量 越 大 ,在 其 他 条 件 相同 情况 下 ,抽样 误差 就 越 小 ,抽样 
调查 的 精度 就 越 高 。 同 时 ,样本 量 也 与 调查 费用 有 关 , 样本 量 越 大 , 调查 费用 就 越 
高 "样本 量 与 调查 费用 大 致 呈 线 性 关系 ,但 样本 量 与 精度 却 呈 非 线性 关系 。 也 就 是 
说 ,在 样本 量 比较 小 时 ,每 增加 一 个 抽样 单元 对 提高 精度 的 作用 比较 显著 ,但 随 着 
样本 县 的 增 大 ,达到 一 定 程 度 后 ,下 每 增加 一 个 抽样 单元 对 提高 精度 的 作用 就 逐渐 
下 降 。 

除了 样本 基 以 外 ,影响 精度 与 费用 的 另外 因素 是 抽样 方式 与 估计 方法 。 一 个 好 
的 抽样 设计 必须 同时 考虑 到 精度 与 费用 两 个 方面 反 过 来 ,精度 与 费用 也 是 评价 抽 
样 设计 方案 优 劣 的 两 条 准则 。 对 于 一 个 具体 的 抽样 设计 ,在 核定 的 费用 内 达到 最 高 
的 精度 ,或 在 达到 精度 要 求 的 条 件 下 使 调查 的 费用 最 少 , 则 称 这 样 的 抽样 设计 为 最 
优 没 计 。 最 优 设 计 的 抽样 效率 最 高 ,因此 效率 是 对 精度 与 费用 的 综合 。 



































$1.3 ” 几 种 基本 的 抽样 方法 


一 ,简单 随机 抽样 {simple random sampling) 
简单 随机 抽样 也 称 纯 随 机 抽样 ,是 从 抽样 框 内 的 N 个 抽样 单元 中 随机 地 、 一 
个 一 个 地 抽取 个 单元 作为 样本 ,在 每 次 抽 选 中 ,所 有 未 入 样 的 待 选单 元 入 选 祥 本 
的 概率 足 相 等 的 ,这 关 个 被 抽 中 的 单元 就 构成 了 简单 随机 样本 ,简单 随机 样本 也 订 
1 





以 一 次 同时 从 总 体 (抽样 框 中 抽出 ,这 时 全 部 可 能 样本 中 的 每 一 个 样本 被 抽 中 的 
概率 也 需要 相等 -抽样 的 随机 性 是 通过 抽样 的 随机 化 程序 体现 的 .实施 随机 化 程序 
可 以 使 用 随机 数字 表 , 也 可 以 使 用 能 产生 符合 要 求 的 随机 数 序列 的 计算 机 程序 。 
简单 随机 抽样 是 一 种 最 基本 的 抽样 方法 ,是 其 他 抽样 方法 的 基础 ,这 种 方法 的 
突出 特点 是 简单 直观 ,在 抽样 要 完整 时 ,可 以 直接 从 中 抽 选 样本 ,由 于 抽 选 的 概率 
相同 ,用 样本 统计 量 对 日 标量 进行 估计 及 计算 抽样 误差 部 比较 方便 ,但 简单 随机 抽 
样 在 实际 应 用 中 也 有 一 些 局 限 ,首先 , 它 要 求 包含 所 有 总 体 单元 的 名 单 作为 抽样 











框 , 当 NN 很 大 时 ,构造 这 样 的 抽样 框 并 不 容易 。 


次 ,根据 这 种 方法 抽出 的 单元 很 





分 散 , 给 实施 调查 增加 了 困难 。 最 后 ,这 种 方法 没 


有 利用 其 他 辅助 信息 以 提高 估计 











的 效率 .所 以 在 规模 较 大 的 调查 中 ,很 少 直接 采 有 
法 同 其 他 抽样 方法 结合 在 一 起 使 用 。 








二 ,分 层 抽样 (stratified sampling) 











简单 随 饥 抽样 ,一 般 是 将 这 种 方 


分 层 抽 样 是 将 抽样 单元 按 某 种 特征 或 菜 种 规则 划分 为 不 同 的 层 ,然后 从 不 同 
的 层 中 独立 、 随 机 地 抽取 样本 .将 各 层 的 样本 结合 起 来 ,对 总 体 的 目标 量 进行 估计 。 
分 层 抽样 有 许多 优点 , 它 保证 了 样本 中 包含 有 各 种 特征 的 抽样 单元 ,样本 的 结构 与 
总 体 的 结构 比较 相近 ,从 而 可 以 有 效 地 提高 估计 的 精度 ;分 层 抽样 在 一 定 条 件 下 为 
组 织 实施 调查 提供 了 方便 ,如 果 层 的 划分 是 按 行业 或 行政 区 划 进 行 的 就 是 这 样 ; 分 
层 抽样 既 可 以 对 总 体 参数 进行 估计 ,也 可 以 对 各 层 的 目标 量 进行 估计 ;等 等 .这些 











优点 使 分 层 抽样 在 实践 中 得 到 了 广泛 的 应 用 。 


三 、 整 群 抽样 (cluster sampiing) 
将 总 体 中 若 于 个 基本 单元 合并 为 组 ,这 样 的 





组 称 为 群 ,抽样 时 直接 抽取 群 , 然 





后 对 中 选 群 中 的 所 有 基本 单元 全 部 实施 调查 ,这样 的 抽样 方法 称 为 整 群 抽样 。 


与 简单 随机 抽样 相 比 , 整 群 抽样 的 优点 在 于 
样 框 而 不 必要 求 具有 所 有 基本 单位 的 抽样 框 ,这 


量 , 其 次 ,由 十 群 通常 是 由 那些 地 理 位 置 邻 近 , 或 隶属 于 同一 系统 的 单元 所 构成 , 因 
此 调查 的 地 点 相对 集中 ,从 而 节省 了 调查 费用 ,使 于 调查 的 实施 。 丈 群 抽样 的 主要 





和 缺点 是 估计 的 精度 较 差 ,因为 同一 群 内 的 单元 或 多 或 少 地 有 些 相似 ,在 样本 草 相 
条 件 上, 整 群 抽样 的 抽样 误差 通常 比较 大 。 一 般 说 来 ,要 得 到 与 简单 随机 抽样 相 





的 精度 ,采用 整 群 抽样 需要 增加 基本 调查 单元 。 





,首先 ,抽取 样本 时 只 需要 群 的 
就 大 大 简化 了 编制 抽样 框 的 工作 

















四 、 系 统 抽样 (systematic sampling} 
将 总 体 中 的 所 有 单元 (抽样 单元 ) 按 一 定 上 顺序 排列 ,在 规定 的 范围 内 随机 地 抽 





取 一 个 单元 作为 初始 单 苑 ,然后 按 寻 





先 规定 好 的 规则 确定 其 他 样本 单元 ,这 种 抽样 


方法 称 为 系统 抽样 ,典型 的 系统 抽样 是 先 从 数字 1 到 上 之 间 随机 抽取 -一个 数字 r 作 


b> 





站 





总 


五 ,多 阶段 抽样 {multi-stage sampling 








初始 单元 ,以 后 依次 取 = + 大 ,r+ 2&,… 单元 。 所 以 可 以 把 系统 抽样 乔 成 是 将 总 
内 的 单元 按 顺 序 分 成 二 群 ,用 相同 的 概率 抽取 出 一 群 的 方法 。 

系统 抽样 的 主要 优点 是 操作 简便 ,如 果 有 辅助 信息 ,对 总 体内 的 单元 进行 有 组 
的 排列 ,可 以 有 效 地 提高 估计 的 精度 。 系 统 # 
困难 。 系 统 抽样 方法 在 调查 实践 中 有 广泛 的 应 用 。 


抽样 的 缺点 是 对 估计 量 方差 的 估计 比 





采用 类 似 整 群 抽 样 的 方法 ,首先 抽取 群 ,但 











f 不 是 调查 群 内 的 所 有 基本 单元 ， 


而 是 青 进行 一 步 抽样 ,从 选中 的 群 中 抽取 出 若干 个 基本 单元 进行 调查 。 因 为 取得 这 


些 接受 调查 的 基本 单元 需要 
里 , 群 是 初级 抽样 单元 ,第 二 阶段 抽取 的 是 基本 : 


两 个 步骤 ,所 以 将 这 种 抽样 方法 称 为 二 阶段 抽样 .这 











的 段 数 增多 ,就 称 为 多 阶段 








单元 ,第 二 阶段 抽取 接受 调查 的 基本 单元 就 是 三 
义 四 阶段 抽样 ,不 过 ,即便 是 大 规模 的 抽样 调查 ， 





减少 .因为 每 增加 一 个 抽样 
也 更 加 复杂 。 





样 单元 将 这 种 方法 推广 ,使 抽样 





样 。 例 如 第 一 阶段 抽取 初级 单元 ,第 二 阶段 抽取 二 级 





阶段 抽样 ,用 同样 的 方法 还 可 以 定 
抽取 样本 的 阶段 也 应 当 尽 可 能 地 











阶段 ,就 会 增加 一 份 


样 误差 ,用 样本 对 总 体 进行 估计 


多 阶段 抽样 具有 整 群 抽样 的 优点 , 它 保证 了 样本 相对 集中 ,从 而 节约 了 调查 费 





用 ;不 需要 包含 所 有 低 阶段 








盾 样 单元 的 





抽样 框 ;由 于 实行 了 再 抽样 ,使 调查 单元 在 


更 大 的 范围 内 展开 。 在 较 大 规模 的 抽样 调查 中 ,多 阶段 抽样 是 经 常 被 采用 的 方法 。 








$1.4 ”抽样 调查 程序 


对 于 不 同 的 抽样 调查 项 目 , 整 个 调 在 过程 所 包含 的 步 又 不 尽 相同 。 但 一 般 而 


言 ,都 需要 以 下 几 个 步骤 。 





一 、 确 定 调研 问题 

这 是 整个 调查 的 第 一 步 ,也 是 至 关 重 归 的 一 步 。 在 这 个 过 程 中 首先 需要 明确 地 
定义 问题 ,包括 对 整个 问题 的 叙述 以 及 确定 研究 问题 的 具体 组 成 部 分 只 有 问题 定 
义 消 楚 了 , 才 有 可 能 进一步 设计 和 执行 。 傅 定 调研 问题 所 要 回答 的 是 “要 做 什么 样 
的 调查 研究 ”和 ”为 什么 要 做 这 项 调查 研究 "调研 人 员 需 要 考虑 研究 的 目的 ,相关 
的 背景 材料 ,所 需要 的 信息 以 及 这 些 信息 在 进行 分 析 时 如 何 使 用 ,为 此 ,调研 人 员 
需要 与 有 关 部 门 的 决策 者 进行 认真 讨论 ,访问 有 关 行 业 的 专家 ,分 析 二 手 资料 , 必 
要 时 还 需要 进行 如 座谈 会 那样 的 定性 调查 。 

在 这 一 过 程 中 ,还 要 考虑 到 财力 限制 及 有 关 的 调查 技术 力量 ,把 调研 的 问题 定 
义 在 适当 的 范围 内 ,每 一 项 调查 ,都 会 有 费用 .时间 等 方面 的 要 闫 ,比如 一 项 大 规模 
的 调查 ,需要 较 多 的 调查 费用 ,而 实际 的 预算 费用 明显 不 够 ,就 必须 缩小 调研 问题 
的 范围 以 适应 财力 的 许可 。 
































二 ,抽样 方案 设计 

抽样 方案 要 描述 样本 是 如 何 抽取 的 。 调 查 中 有 不 同 的 数据 收集 方法 ,如 面 访 调 
查 , 电 话 调查 ,邮寄 调查 等 不 同 收集 方法 需要 不 同 的 抽样 杠 , 抽 样 方案 设计 包括 抽 
样 框 的 设计 .此 外 ,对 样本 又 有 不 同 的 抽取 方法 ,在 制定 抽样 方案 时 , 既 此 考虑 方法 
的 科学 性 ,又 要 照顾 实际 的 可 行 性 .例如 ,在 一 项 多 阶段 抽样 中 ,前 一 二 阶 抽样 十 分 
关键 ,需要 采用 效率 高 的 抽样 方法 ,由 于 这 个 阶段 的 抽样 可 以 由 设计 人 员 来 实施 ,所 
以 技术 复杂 一 些 也 无 妨 。 后 面 阶段 的 抽样 则 力求 简单 ,以 使 基层 的 操作 者 能 够 胜任 。 
在 这 个 过 程 中 还 要 确定 样本 基 , 要 给 出 与 抽样 设计 相 匹 配 的 总 体 参数 的 估计 公式 及 
估计 复 的 精度 公式 ,调查 中 常常 会 过 到 调查 对 象 失 访 ,如 受 访 者 不 在 家 或 拒 访 ,因此 
需要 制定 一 些 具 体 的 处 理 办 法 ,把 失 访 对 调查 结果 的 影响 降 到 最 小 程度 。 








三 .问卷 设计 

问卷 设计 大 根据 调查 月 的 和 要 求 ,将 比较 抽 得 的 调研 问题 逐步 细 化 ,演变 为 现 
场 调查 中 间 受 访 者 询问 的 ,比较 具体 的 问题 这 样 一 个 工作 过 程 ,问卷 设计 也 是 一 站 
技巧 忻 很 强 的 学 问 。 一 份 设计 精巧 的 问卷 ,应 当 使 受 访 者 能 准确 无 误 地 理解 调查 的 
内 容 ,能 够 正确 回答 并 上 呈 愿意 回答 所 提 的 问题 ,并 且 使 调查 机 构 便 于 对 问卷 进行 计 
算 机 处 理 , 有 效 地 利用 调 相 数据 进行 统计 分 析 。 进 行 问卷 设计 ,除了 应 具备 所 涉及 
调 相 内 容 的 专业 知识 外 ,还 需 此 有 统计 学 .社会 学 ,心理 学 及 计算 机 等 多 方面 的 知 
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识 ,此 外 还 要 有 问卷 设计 的 技巧 和 经 验 - 通 常 ,设计 出 的 调查 问卷 的 初稿 ,应 由 有 关 
方面 的 人 士 利 专家 进行 审阅 和 讨论 。 


四 、 实 施 调查 过 程 

在 这 个 过 程 中 要 获得 样本 单元 的 调查 数据 ,关键 的 问题 是 要 保证 原始 数据 的 
质 景 ,这 就 需要 对 调查 过 程 进行 有 效 的 管理 和 监控 -调查 实施 前 ,需要 对 调查 员 进 
行 技术 培训 ,使 油 查 员 熟 悉 调查 问卷 ,掌握 访谈 技巧 ,并 增强 责任 心 在 调查 过 程 中 
加 强 质量 检验 ,出 现 问题 及 时 总 结 , 及 时 补救 -调查 人 员 要 有 操作 手册 ,调查 过 程 中 
也 要 有 管理 制度 和 措施 ,使 得 从 事 具 体 调查 的 人 员 有 章 可 循 。 如 果 调 查 项 目 比 较 
大 ,又 是 第 一 次 进行 ,或 者 对 问卷 设计 的 把 握 不 够 大 ,在 正式 调查 实施 前 ,还 应 当 进 
行 一 次 预 调查 (试验 调查 ) , 以 检验 各 方面 的 工作 是 咨 完善 。 





五 ,数据 处 理 分 析 

数据 处 理 分 析 是 调查 的 收获 阶段 , 它 为 撰写 调查 报告 提供 基本 的 素材 ,在 这 个 
阶段 ,首先 要 对 经 过 调查 获得 的 原始 数据 进行 愉 查 、 核 对 ,对 验收 合格 的 调查 问卷 
进行 编码 和 录 人 。 数 据 录 人 后 ,多 数 情 况 下 需要 进行 数据 的 预 处 理 ,为 统计 分 析 做 
好 准备 数据 的 预 处 理 包括 : 录 和 人 数据 的 青 编码 , 它 是 对 原 编码 的 补充 和 调整 ,满足 
茶 些 统计 分 析 软 件 对 编码 的 特殊 要 求 ,也 是 根据 研究 要 求 对 数据 的 重新 归 类 分 组 ; 
对 缺失 值 进行 搬 补 ,以 构造 出 完整 的 数据 集 ; 进行 变量 的 转换 ,进而 进行 常规 的 统 
计 分 析 ; 计 算 目 标量 的 估计 值 .方差 及 变异 系数 的 估计 值 等 。 必 要 时 还 需要 结合 研 
究 自 的 进行 深入 的 统计 处 理 与 分 析 。 


六 、 撰 写 调查 报告 

调查 报告 可 以 有 不 同 的 类 型 。 从 内 容 上 可 以 分 为 描述 性 报告 和 探索 性 报告 ;从 
技术 角度 可 以 分 为 一般 报告 和 技术 报告 ;从 性 质 上 可 以 分 为 普通 调查 报告 和 学 术 
研究 报告 等 ,这 里 引用 联合 国 关 于 抽样 调查 结果 的 一 般 性 报告 所 应 包含 的 主要 项 
目 (United Nations,1949) ,内 容 如 下 : 

《1) 主题 清楚 地 指出 此 调查 的 目的 ,并 提出 对 调查 结果 的 使 用 方式 。 

(2) 范围 ,正确 地 描述 调查 范围 ,包括 指定 的 研究 定义 及 调查 的 地 理 区 域 。 

(3) 调查 对 象 详 细 令 述 此 调查 所 收集 的 资料 项 目 及 未 列表 项 目的 原 

(4) 资料 收集 方法 。 清 楚 地 叙述 所 采用 的 收集 资料 的 方法 .此 外 ， 收集 资料 过 
程 中 过 到 的 所 有 困难 及 解决 的 方法 , 均 应 详细 说 明 .。 
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(5) 调查 期 .参考 期 和 报告 期 。 调 查 报告 中 必须 指出 调查 期 .参考 期 和 报告 期 
等 经 过 时 间 。 

(6) 抽样 设计 和 估计 程序 .清楚 说 明 调查 中 所 使 用 的 抽样 单元 、 抽 样 框 .样本 
大 小 和 抽样 方法 ,清楚 地 叙述 估计 时 所 用 的 公式 。 
《7) 结论 的 描述 。 列 表 资 料 应 该 以 清楚 且 易于 理解 的 方式 列 出 。 合 适 的 一 览 
表 、 图 例 或 图 解 能 使 调查 结果 获得 更 快 ,更 清楚 的 理解 。 
(8) 精确 度 。 调 但 结 果 中 应 该 列 出 估计 所 达到 的 精确 程度 .检验 及 比较 的 结 
打 、 对 调查 质量 的 评估 。 此 外 ,还 必须 指出 无 回答 者 的 种 类 、 比 例 以 及 对 最 后 结果 的 
影响 程度 。 

(9) 责任 。 主 办 机 构 及 指挥 此 调查 的 机 构 须 在 报告 中 提出 。 

(10) 参考 文献 。 须 列 出 已 发 表 的 相关 论文 和 报告 作为 参考 资料 。 























小 结 








本 章 分 四 节 。 第 一 节 是 对 抽样 调查 概念 ,意义 ,作用 的 介绍 。 从 抽 选 样本 的 方法 
看 ,可 以 分 为 概率 抽样 和 非 概率 抽样 ,二 者 具有 不 同 的 特点 ,本 书 的 内 容 主要 是 对 
概率 抽样 而 言 。 第 二 节 介 绍 了 概率 抽样 中 所 涉及 的 一 些 基 本 概念 ,这 些 概念 的 运用 
将 贯穿 全 书 。 第 三 节 介 绍 了 几 种 基本 的 概率 抽样 方法 ,在 后 面 各 章 中 将 对 这 些 方法 
做 一 详细 介绍 。 第 四 节 介绍 了 抽样 调查 的 一 般 步骤。 本 章 的 目的 是 使 读者 在 学 习 具 
体 的 抽样 技术 之 前 ,对 有 关 的 问题 有 一 个 大 概 的 了 解 。 



































习 题 





1. 举例 说 明 什么 情况 下 适合 采用 非 概 率 抽样 ,什么 情况 下 适 会 采 用 概率 抽 
样 。 

2. 讨论 以 下 情况 是 否 属于 概率 抽样 ,并 说 明理 由 : 

(1) 从 实验 室 中 一 个 装 有 100 只 兔子 的 大 笼子 里 抓 10 只 兔子 做 试验 ,不 经 任 
何 有 意识 的 选取 , 抓 到 哪 只 算 哪 只 , 抓 满 10 只 为 止 。 

(2) 将 笼子 中 的 100 只 兔子 编 上 1 ~ 100 号 ,任意 列 出 10 个 数字 ,相应 号 码 的 
兔子 作为 试验 用 的 兔子 。 

(3) 从 在 场 的 人 的 钱包 中 随 使 抽出 纸币 , 凡 兔子 号 码 尾 数 与 纸币 号 码 尾数 相 
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同 者 即 作为 抽 中 的 样本 。 

3. 现在 利用 网 络 进行 调查 的 项 日 很 多 ,举例 说 明 哪 些 类 型 的 调查 属于 概率 抽 
样 ,哪些 类 型 的 调查 不 属于 概率 抽样 。 

4. 请 指出 下 从 一 些 内 容 的 调查 可 以 采用 什么 材料 构造 抽样 框 (将 有 效 性 和 可 
能 性 结合 起 来 ): 

(1) 对 北京 市 居民 癌症 病人 的 调查 。 

《2) 对 北京 市 小 学 生 零 花 钱 情况 的 调查 。 

(3) 对 茶 地 区 收视 率 傅 况 的 调查 。 

5. 你 认为 抽样 调查 中 的 哪些 环节 最 关键 ,并 说 明理 由 。 












































简单 随机 抽样 四 所 有 概率 抽样 方法 的 基础 ,我 们 将 要 学 习 的 各 种 


是 在 其 基础 上 发 展 起 来 的 。 


计 莉 及 
若干 问题 。 





本 章 共 分 四 节 , 第 一 节 介绍 简单 随机 抽样 的 定义 及 
其 性 质 ;第 三 节 介绍 样本 量 的 确定 原则 ;第 四 节 介绍 与 简单 随机 : 


第 2 章 


简单 随机 抽样 





样 方法 都 





其 抽 选 方法 ;第 二 节 介绍 估 
样 相关 的 











$2.1 引言 
一 定义 与 符号 
(一 ) 定义 
简单 随机 抽样 也 称 单纯 随机 者 


样 , 从 含有 NN 个 单元 的 总 体 中 抽取 x 个 单元 组 





成 样本 ,如 果 抽 样 是 不 放 回 的 , 则 所 有 可 能 的 样本 有 C8 个 , 若 每 个 样本 被 抽 中 的 


概率 相同 ,部 为 二 ,这 种 抽样 方法 





是 逐个 等 概率 抽 皮 样本 单元 ,直到 j 
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就 是 不 放 回 的 简单 随机 抽样 ,具体 拍 样 时 ,通常 
抽 满 = 个 单元 为 正 。 





简单 随机 抽样 恨 据 山 样 单元 是 否 放 回避 分 为 放 回 简单 随机 抽样 和 不 放 回 简单 





随机 抽样 。 











. 放 回 简单 随机 抽样 。 当 从 总 体 N 个 抽样 单元 中 抽取 a 个 抽样 单元 时 ,如 果 


依次 抽取 单元 ,不管 以 前 是 否 被 抽 中 过 ,每 次 都 从 N 个 抽样 单元 中 随机 抽取 ,这 
时 ,所 有 可 能 的 样本 为 N" 个 (考虑 样本 单元 的 顺序 ), 每 个 样本 被 抽 中 的 概率 为 


总 ,这 种 方式 就 是 放 回 简单 随机 抽样 。 

















应 当 注 意 的 足 , 放 回 简单 随机 抽样 在 每 次 抽取 样本 单元 时 ,都 将 前 一 次 抽取 的 
样本 单元 放 回 总 体 , 因 此 ,总体 的 结构 不 变 ,抽样 是 相互 独立 进行 的 ,这 是 它 与 不 放 
阿 简单 随机 机 桩 的 主要 不 同 之 处 -这 一 点 使 它 的 数学 处 理 相对 简单 。 





[ 例 2.1】 没 总 体 有 5 个 单元 (1,2,3,4,5), 按 放 回 简单 随机 抽样 的 方式 抽取 

2 个 单元 , 则 所 有 可 能 的 样本 为 5 = 25 个 (考虑 样本 单元 的 顺序 ) ,如 故 2.1。 
表 2.1 放 回 简单 随机 抽样 所 有 可 能 的 样本 

1.1 2,1 3,1 1 4,1 | 5,1 

1.2 2,2 3,2 4,2 | 5,2 

1.3 2.3 3,3 4,3 5,3 

1,4 2,4 3,4 4,4 5,4 

5 | 2,5 i 3,5 4,5 5,5 








2. 不 放 回 简单 随机 抽样 .从 总 体 个 抽 伴 单元 中 依次 抽取 ,直到 抽 满 » 个 抽样 
单元 ,每 个 被 抽 中 的 单元 不 青 放 回 总 体 ,每 次 抽样 是 从 总 体 剩 下 的 单元 中 进行 、 





【 例 2.2】 没 总 体 有 5 个 单元 (1,2,3,4,5), 按 不 放 同 简单 随机 抽样 的 方式 抽 
取 2 个 单元 , 则 所 有 可 能 的 样本 为 C3 = 10 个 ,如 表 2.2。 
表 2.2 不 放 回 简单 随机 抽样 所 有 可 能 的 样本 
1,2 | 2,3 3,4 415 
1.3 2.4 3,5 
1,4 2,5 | 
1,5 1 





不 放 回 简单 随机 抽样 的 样本 址 要 受 总 体 大 小 的 限制 , 即 ”不 能 超过 和 ,最 多 等 


于 六 ,如 果 伴 本 量 接近 或 等 于 总 体 大 小 时 





, 则 调 但 几乎 是 或 就 是 普查 。 


在 实际 工作 中 ,更 多 邮 采 用 不 放 四 简单 随机 抽样 ,所 以 以 下 讨论 的 简单 随机 抽 


样 除非 特别 申明 ,都 指 不 放 同 简单 随机 抽样 。 
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(二) 符号 

在 抽样 济 查 中 ,人 们 通常 用 大 写 符号 表示 总 体 单元 的 标志 值 , 用 小 与 符号 表示 
样本 单元 的 标志 值 -总 体 中 N 个 单元 的 标志 值 为 Yi,Y。,…, Yw ,样本 中 个 单元 
的 标志 值 为 v1,y2,… ,yn。 

调查 的 昌 的 是 了 解 总 体 某 个 标志 的 性 质 ,我 们 称 之 为 总 体 旧 标量 (或 总 体 指 
标 ), 主 要 有 ;总 体 总 量 了 , 益 体 均值 了 ,总 体 中 具有 某 种 特征 的 单元 数 占 总 体 的 比 
例 也, 黄 个 总 体 总 苇 或 其 个 总 体 均值 的 比率 R 等 指标 。 

在 对 估计 精度 进行 计算 或 推算 时 ,要 涉及 到 总 体 方差 .样本 方差 等 指标 。 如 


表 2.3。 


















表 2.3 
样 本 
Dy tt 
SN 
”no 四 
= 和 2 Ly = 
Pn 和 (=0 或 1) 
国 
~ 
R= 二 一 = 之 
、 均 
2 
二 
1 














总 体 指标 值 上 面 带 符号 “和 ”的 表示 由 样本 得 到 的 总 体 指标 的 估计 ,如 ,了 , 
户 ,请 等 , 称 为 Y, 了 ,PP,R 的 估计 。 

估计 量 的 方差 用 V 表示 ,如 V(Y); 标 准 差 用 S 表 示 , 如 SCY) =N VCY), 而 
对 Y(Y) 的 样本 估计 ,为 避免 符号 的 累 次 ,不 用 六 ( 六) ,而 用 w(Y) 表示 。 类 似 地 ， 


S( 六 ) 的 样本 依 计 用 s( 字 ) = 和 v( 字 ) 表示 。 
称 为 抽样 比 , 记 为 六 
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二 、 抽 选 方法 

要 产生 简单 随机 样本 ,首先 将 总 体 N 个 单元 从 上 到 N 编号 ,每 个 单元 对 应 - - 
个 号 ,如 果 抽 到 某 个 号 , 则 对 应 的 那个 单元 人 样 -要 选 出 z 个 单元 人 样 ,通常 有 两 种 
做 法 :抽签 法 和 随机 数 法 。 

{一 ) 抽签 法 

当 总 体 不 大 时 ,可 以 用 均 勾 间 质 的 材料 制作 N 个 签 ,将 它们 充分 混合 ,然后 一 
次 抽取 个 签 ,或 一 次 抽取 一 个 签 但 不 放 回 ,接着 抽 下 一 个 签 直 到 第 ”个 签 为 止 ， 
则 这 个 签 上 所 示 的 导 码 表示 人 样 的 单元 号 。 

(二) 随机 数 法 

当 总 体 较 大 时 ,抽签 法 实施 起 来 很 困难 ,这 时 可 以 利用 随机 数 表 、 随 机 数 骨 子 、 
计算 机 产生 的 伪 随 机 数 进行 抽样 。 

1. 随机 数 表 。 随 机 数 表 是 由 数字 0,1,…,9 组 成 的 表 , 每 个 数字 都 有 同样 的 机 
会 被 抽 中 .用 随机 数 表 抽取 简单 随机 样本 时 ,可 用 下 面 几 种 方法 。 

方法 一 :根据 总 体 大 小 N 的 位 数 决 定 在 随机 数 表 中 随机 抽取 几 列 ,如 N = 
678 ,要 抽取 ”= 5 的 样本 , 则 在 随机 数 表 中 随机 抽取 3 列 , 顺序 往 下 , 选 出 头 5 个 
001 ~ 678 之 间 互 不 相同 的 数 ,如 果 这 3 列 随机 数字 不 够 ,可 另 选 其 他 3 列 继续 , 直 
到 抽 满 ” 个 单元 为 止 。 

方法 二 : 若 NN 的 第 一 位 数字 小 于 5, 且 不 小 , 则 方法 一 可 能 花费 较 多 的 时 间 。 
如 N = 327, 按 方法 一 则 000 和 328 ~ 999 的 数 都 没有 用 .这 时 采用 下 面 的 方法 可 
能 更 好 ,在 随机 数 表 中 随机 抽取 3 询 , 顺 序 往 下 ,如 果 得 到 的 随机 数 在 401 一 800 之 
间 , 则 这 个 数字 减 去 400, 由 此 000, 大 于 800 以 及 余数 大 于 327 的 数字 被 扔 掉 。 显 然 
这 种 方法 比 上 一 种 方法 效率 高 。 

方法 三 :车 NN 的 第 一 位 数字 小 于 5, 如 N = 327, 且 不 小 ,除了 按 方法 二 产生 
随机 数 以 外 ,还 可 按 下 商 的 方法 产生 随机 数 。 在 随机 数 表 中 随机 抽取 3 列 ,顺序 往 
下 ,如 果 得 到 的 随机 数 大 于 327, 生 小 于 982( 因 为 327 x 3 = 981, 而 327X4= 
1 308, 因 此 000 及 982 ~ 999 的 数字 应 扔 掉 ), 则 用 这 个 数字 除 以 327, 得 到 的 余数 
入 样 ,显然 这 种 方法 也 比方 法 一 效率 高 。 

在 使 用 随机 数 表 时 ,为 克服 可 能 的 个 人 习惯 ,增加 随机 性 ,使 用 随机 数 表 的 页 
号 及 起 始点 应 该 用 随机 数 产 生 , 如 随意 翻 开 一 页 , 闭 上 了 眼睛 ,将 火柴 随意 扔 到 页 面 
上 上 ,将 火柴 头 所 指 的 数字 作为 页 号 ,用 同样 的 方法 也 可 以 产生 起 始 行 号 和 起 始 列 

2. 随机 数 贷 子 。 随 机 数 般 子 是 由 均匀 材料 制 成 的 正 20 面体 , 面 上 标 有 0 ~ 9 
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的 数字 各 2 个 ,我 国 "运筹 ” 牌 随机 数 仍 子 一 盒 有 6 个 不 同 颜色 的 仍 子 ,使 用 时 , 根 
据 总 体 大 小 N 的 位 数 ,如 N = 327 的 位 数 为 3, 旭 将 3 个 不 同 颜 色 的 角 子 放 人 盒 
中 ,并 规定 每 种 颜色 所 代表 的 位 数 ,如 红色 代表 个 位 数 , 蓝 色 代表 十 位 数 , 黄 色 代表 
百 位 数 等 , 盖 上 售 盖 ,摇动 盒子 ,使 般 子 充分 旋转 ,然后 打开 念 盖 , 读 出 仍 子 所 表示 
的 数字 .重复 上 述 步骤 ,直到 产生 有 个 不 同 的 随机 数 。 

3. 摇 奖 机 。 各 类 彩票 中 奖 号 码 的 产生 通常 是 由 摇 奖 机 完成 的 ,这 个 过 程 可 以 
从 电视 节目 中 看 到 。 将 标 有 数字 0 ~ 9 的 10 个 球 放 人 摇 奖 机 中 ,充分 搅拌 ,使 球 充 
分 转动 ,直到 播 出 其 中 的 一 个 球 ,记录 该 球 所 标明 的 数字 ,产生 了 随机 数 的 个 位 数 ; 
将 球 放 周到 播 奖 机 中 ,重复 上 述 步骤 ,直到 播 出 一 个 球 , 记录 该 球 所 标明 的 数字 为 
随机 数 的 十 位 数 ; 同 理 产生 百 位 数 等 ,如 此 产生 一 个 随机 数 。 重 复 上 述 步 又 ,直到 产 
生 n 个 不 同 的 随机 数 。 
4, 计算 机 产生 的 伪 随 机 数 。 不 少 统计 软件 都 有 现成 的 产生 随机 数 的 程序 ,使 
用 者 也 可 利用 同 余 法 自 编 产生 随机 数 的 小 程序 。 利 用 计算 机 产生 的 随机 数 具 有 快 
汪 方便 的 特点 ,但 需要 注意 的 是 ,利用 计算 机 产生 的 随机 数 是 伪 随 机 数 , 并 不 能 保 
证 其 随机 性 ,通常 产生 的 伪 随 机 数 有 循环 周期 ,当然 ,我 们 希望 产生 的 伪 随 机 数 循 
环 周 期 越 长 越 好 。 在 可 能 的 情况 下 ,建议 还 是 利用 随机 数 表 和 随机 数 般 子 来 产生 随 
机 数 。 








$2.2 估计 量 


总 体 目 标量 通常 有 总 体 的 总 量 、 均 值 .比例 ,比率 等 指标 , 本章 主要 考虑 前 三 种 
目标 量 。 如 北京 市 全 市 职工 年 收入 ,北京 市 职工 年 平均 收入 ,北京 市 男性 职工 的 比 
例 等 。 





一 、 总 体 均 值 的 估计 
(一 ) 简单 估计 量 的 定义 
在 没有 其 他 总 体 信息 的 条 件 下 ,对 总 体 均值 了 的 简单 估计 为 : 


了 = 二 > (2.1) 


即 以 样本 均值 作为 总 体 均值 的 估计 。 
(二 ) 简单 估计 量 的 性 质 
性 质 1 对 于 简单 随机 抽样 ,3 是 了 的 无 偏 估计 。 即 
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El(y)=Y (2.2) 
为 表达 3 的 方差 ,我 们 先 定义 总 体 的 方 益 。 通 常 将 有 限 总 体 的 方差 定义 为 : 


y 
= NY 一 区) (2.3) 
这 里 ,我 们 用 
、 
Sr = LD YY (2.4) 
t 


来 表示 总 体 方 其 ,这 种 表示 可 以 在 大 多 数 情况 下 使 公式 的 表达 更 为 简捷 。 
性 质 2 ”对 于 简单 随机 抽样 ,3 的 方差 为 ， 
V9) = ME"S’ = Lfs? (2.5) 








式 中 , 为 样本 量 ;f= 和 为 抽样 比 ;1 - f 为 有 限 总 体 校正 系数 。 
性 质 3 V3) 的 无 仿 估 计 为 : 
v9) = Lh? (2.6) 


式 中 ,s? 为 样本 方差 。 

佑 计量 的 方差 V(5) 是 衡量 估计 量 精度 的 度量 。 从 式 (2.5) 可 以 看 出 ,影响 估 
计量 方差 的 因素 有 样本 量 ,总 体 方差 S 和 抽样 比 亡 在 需要 进行 抽样 调查 的 问题 
中 ,NN 通常 很 大 (如 果 N 不 大 , 则 没有 必要 进行 抽样 调查 , 直接 进行 普查 更 好 ) , 当 
了 < 0.05 时 ,可 将 1 一 了 近似 取 为 1, 这 时 主要 是 样本 量 ”和 总 体 方差 S2 影响 估计 
量 方差 样本 量 =” 越 大 ,估计 量 的 方差 越 小 。 当 样本 量 一 定时 ,总 体 方差 S? 越 大 , 信 
计量 的 方差 越 大 。 由 于 总 体 方差 S? 是 我 们 无 法 改变 的 ,因此 ,在 简单 随机 抽样 的 条 
件 下 ,要 提高 估计 重 的 精度 就 只 有 通过 加 大 样本 量 来 实现 。 

{ 例 2.3】 我 们 从 某 个 N = 100 的 总 体 中 抽出 一 个 大 小 为 ”= 10 的 简单 随 
机 样本 ,要 估计 总 体 平均 水 平 并 给 出 置信 和 度 为 95% 的 区 间 估计 。 如 表 2.4。 























表 2.4 简单 醚 机 样本 的 指标 信 
序号 ; 1 2 3 4 5 6 7 8 9 10 
4 5 2 0 4 6 6 15 0 8 








解 : 依 题 意 ,N = 100, = 10,f = 好 =0.1 


计算 样本 均值 及 样本 方差 为 : 
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Ei a -3 = Il9.11 
1 


因此 ,对 总 体 平均 水 平 的 估计 为 : 








Y =F=5 
对 3 的 方差 及 标准 差 的 估计 为 : 
Y= Lh = 二 -01xl9.11se1.72 
10 


s(Y) =N v(Y) ~ 1.3115 
由 置信 和 度 95% 对 应 的 + = 1.96, 因 此 ,可 以 以 95% 的 把 握 说 总 体 平均 水 平 大 
约 在 $+1.96 x 1.31!1 5 之 间 , 即 2.429 5 ~ 7.570 5 之 闻 。 
注意 ,本 例 只 是 为 了 说 明 计算 过 程 ,实际 工作 中 ,如 果 总 体 不 大 ,或 抽样 比 接近 
于 1 时 ,人 们 通常 采用 全 面 调查 方式 , 面 不 是 采用 抽样 调查 。 
(三 ) 放 回 简单 随机 抽样 简单 估计 量 
对 于 放 回 简单 随机 抽样 ,对 总 体 均值 Y 的 简单 估计 为 





3= ty 
了 是 的 无 偏 估计 ,其 方差 为 ; 
V(G) = Ne! ls = Lo 
V(5) 的 无 偏 估 计 为 : 
v7) = Ls 


比较 放 回 与 不 放 回 简单 随机 抽样 简单 估计 量 的 方差 公式 ,注意 到 不 放 回 时 的 
方差 为 放 回 时 方差 的 约 1 一 了 售 ,而 1 - 了 < 1, 因 此 不 放 加 抽样 的 估计 精度 比 放 回 
抽样 的 估计 精度 高 。 


二 、 总 体 总 量 的 估计 
总 体 总 景 (Y) 与 总 体 均 秆 (了 ) 只 差 一 个 常数 , 即 


Y= NY = DY 


因此 ， 对 总 体 均值 的 估计 结果 ， 可 以 很 容易 地 推出 对 总 体 总 量 的 估计 。 
(一 ) 简单 估计 量 的 定义 
在 没有 其 他 总 体 信 息 的 条 件 下 ,对 总 体 总 量 Y 的 简单 估计 为 : 
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Y= N= AD (2.7) 


(二 ) 简单 估计 量 的 性 质 
性 质 4 ”对 于 简单 随机 抽样 ,了 是 Y 的 无 仿 估 计 , 即 

E(Y)=Y 《2.8) 
子 的 方差 为 : 

V9) = NV(5) = SH Ds (2.9) 
V(Y) 的 样本 无 偏 估 计 为 : 

v(¥) =- No = EU (2.10) 
【 例 2.4]( 续 例 2.3) ”估计 总 体 总 量 ,并 给 出 在 置信 和 度 95% 的 条 件 下 ,估计 的 

相对 误差 。 


解 : 依 题 意 ,N = 100, 由 例 2.3 的 计算 已 知 : 
y=5, L219.1111 
因此 ,对 总 体 总 量 的 估计 为 : 
= 100x5= 500 
对 立方 关 肌 标准 关 芍 术 本 信 计 为 
v(Y) ~ 100 x i= 





1 x 19、 111 1 = 17 200 


s(Y) =N wv(Y) ~ 131.148 8 
因此 ,在 置信 和 度 95% 的 条 件 下 (对 应 的 + = 1.96) ,了 的 相对 误差 为 : 





1 -196x BS 8 0.514 1 = 51.41% 
了 
三 ,总 体 比例 的 估计 


有 时 调查 人 研究 的 是 某 一 类 特征 的 单元 占 总 体 单元 数 中 的 比例 (P), 如 男 职工 
人 数 占 总 职工 人 数 的 比例 。 这 时 ,将 总 体 单元 按 是 否 具 有 这 种 特征 划分 为 两 类 , 设 
总 体 中 有 A 个 单元 具有 这 个 特征 ,如 果 对 每 个 单元 都 定义 指标 值 
1, 第 i 个 个 单元 具有 所 考虑 的 特征 ， 


0 其 他 2 








则 有 


p= 和 -Y=7 (2.11) 
因此 ,总 体 比 例 的 估计 是 总 体 均值 估计 的 另 一 种 表现 形式 。 
(一 ) 估计 量 的 定义 


对 于 样本 量 为 ” 的 简单 随机 样本 ,如 果 有 a 个 单元 具有 所 研究 的 特征 , 则 对 总 
体 比 例 P 的 估计 为 样本 比例 , 即 





P= (2.12) 
{二 ) 估计 量 的 性 质 
性 质 5 ”对 于 简单 随机 抽样 ,p 是 P 的 无 偏 估计 。p 的 方差 为 : 
V(p) = 但 司 = 闻 (2.13) 
N-A 


式 中 ,Q=1-P= 人、 有。 
V(p) 的 样本 无 偏 估计 为 : 


wp) = 了 (2.14) 


式 中 ,gq = 1 一 p。 

【 例 2.5】 某 超市 开张 一 段 时 间 之 后 ,为 改进 销售 服务 环境 , 欲 调查 附近 几 个 
小 区 居民 到 该 超市 购物 的 满意 度 。 该 超市 与 附近 几 个 小 区 的 居委会 取得 联系 ,在 总 
体 中 按 简单 随机 抽样 抽取 了 一 个 大 小 为 x = 200 人 的 样本 。 调 查 发 现 对 该 超市 购 
物 环境 表示 满意 或 基本 满意 的 居民 有 130 位 ,要 估计 对 该 超市 购物 环境 持 肯 定 态 
度 居民 的 比例 ,并 在 置信 度 95% 条 件 下 ,给 出 估计 的 绝对 误差 和 置信 区 间 。 假 定 这 
时 的 抽样 比 可 以 忽略 。 

解 :已 知 n = 200,a = 130,1- f 之 1 














1-f wl ~ 
vp) = = ~ 0 1 X 0.65 x 0.35 ~ 0.001 143 


sb) = vv(p) 0.0338 
所 以 ,对 该 超市 购物 环境 持 肯定 态度 的 居民 的 比例 为 65%。 
在 置信 度 95% 条 件 下 ,估计 的 绝对 误差 为 
txXs(p)= 1.9% x0.033 8 0.066 3 = 6.63% 
户 的 95% 置信 区 间 为 : 
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0.65+1.96 x0.0338 
或 者 说 ,可 以 以 95% 的 把 握 认为 对 该 超市 购物 环境 持 肯定 态度 的 居民 的 比例 大 约 
在 58.37% 一 71.63% 之 间 。 看 来 ,该 超市 的 购物 环境 还 需要 改善 。 


$2.3 ”样本 量 的 确定 


一 ,有关 问 题 

{一 ) 费用 函数 

样本 量 的 确定 在 抽样 调查 中 是 一 个 十 分 重要 又 比较 复杂 的 问题 , 它 受 对 调查 
精度 的 要 求 以 及 调查 费用 的 限制 。 在 简单 随机 抽样 情况 下 , 设 调查 费用 函数 为 : 

C= co+cian ， 

式 中 ,C 为 总 费用 ;co 为 固定 费用 ,如 管理 人 员 开 支 , 办 公费 组 织 宣传, 场 租 费 等 ， 
这 些 费 用 都 与 样本 量 ” 无 关 ; cl 为 与 样本 量 有 关 的 可 变 费 用 , 即 每 调查 一 个 样本 
单元 所 需 的 费用 ,如 调查 费 .差旅费 .礼品 费 等 。 

作为 抽样 方案 的 设计 者 ,应 该 权衡 精度 与 费用 之 间 的 关系 ,使 调查 既 满 足 精 度 
的 要 求 , 又 节省 费用 。 在 实际 工作 中 ,通常 是 在 总 费用 一 定 的 条 件 下 使 精度 最 高 ,或 
在 要 求 精度 一 定 的 条 件 下 ,使 总 费用 达到 最 小 。 

{二 ) 误差 限 

如 果 只 考虑 调查 精度 对 样本 量 的 要 求 , 则 可 以 按 统计 意义 对 样本 量 进行 定量 
的 计算 。 对 精度 的 要 求 通常 以 允许 绝对 误差 (绝对 误差 限 )a 或 允许 相对 误差 (相对 
误差 限 )r 来 表示 ,误差 限 是 在 一 定 的 概率 保证 意义 下 绝对 或 相对 误差 , 即 对 参数 


9( 如 总 体 均值 ) 及 它 的 估计 名 如 祥 本 均值 ) ,以 绝对 误差 限 表示 ,有 


Pll8- 0l<d)=1-a 
或 以 相对 误差 限 表示 ,有 


1 外 <r 


由 于 我 们 对 总 体 未 做 任何 假定 ,因此 6 的 精确 分 布 很 难 求 得 ,但 当 样本 量 足够 
大 时 ,可 以 用 正 态 分 布 近似 ,这 时 绝对 误差 限 

















=1-a 





d=1N V9) = 2S(9) (2.15) 
式 中 ,i 为 标准 正 态 分 布 的 双 侧 a 分 位 数 。 如 1 一 a = 90%, 对 应 的 + = 1.645; 
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1 一 & =95%, 对 应 的 + = 1.96 等 "而 相对 误差 限 


7 = 2 = 1 30 = :Co(8) (2.16) 


式 中 , Co(8) 为 9 的 变异 系数 ,在 实际 问题 中 , 当 总 体 参 数 9 未 知 时 ,可 以 用 其 估计 
量 妨 蔡 代 ,于 是 又 可 以 将 + 写 为 : 
7 = 1 = tv(0) 
0 9 

由 于 S(9) 是 样本 革 的 函数 ,因此 根据 对 d 或 的 要 求 ,以 及 1 - a 所 对 应 的 z 
可 推算 出 所 需要 的 样本 量 。 

(三 ) 其 他 考虑 因素 

确定 样本 量 除了 通过 定量 的 方法 之 外 ,还 要 考虑 其 他 一 些 因素 。 

1. 问题 的 重要 性 。 对 于 决策 比较 重要 的 问题 ,所 项 的 信息 应 该 比较 准确 ,因此 
样本 量 要 大 一 些 。 

2 . 所 研究 问题 目标 量 的 个 数 。 如 果 所 研究 的 问题 目标 量 较 多 ,样本 量 应 适当 
放大 。 

3. 参照 同类 调查 。 参 照 以 往 同类 型 调查 项 目 确定 样本 量 。 

4. 调查 表 的 回收 率 。 调 查 过 程 中 , 可 能 有 些 调查 对 象 拒 访 或 因 种 种 原因 调查 
不 到 ,这 时 样本 量 应 适当 放大 。 一 种 做 法 是 ,根据 估计 的 回收 率 反 算出 应 接触 的 样 
本 量 ,例如 回收 率 佑 计 为 80% , 则 应 接触 的 样本 量 为 计算 出 所 需 样本 量 的 1.25 售 。 

5. 有 效 样本 。 调 查 过 程 中 ,可 能 有 些 接触 的 对 象 不 是 “合格 ”对象 ,我 们 称 “ 合 
赂 " 对 象 为 有 效 样本 。 为 了 获得 足够 的 有 效 样本 量 , 以 保证 推算 能 够 满足 精度 的 要 
求 ,样本 量 也 应 适当 放大 。 

6. 资源 限制 。 调 查 项 目的 经 费时 间 要 求 及 调查 人 员 都 是 有 限 的 ,因此 样本 量 
的 确定 也 受 这 些 因素 的 影响 。 

以 上 应 考虑 的 问题 有 些 属于 非 抽样 误 养 人 研究 的 范 





r=t 























二 、 总 体 参 数 为 Y 或 了 的 情形 
在 简单 随机 抽样 简单 估计 的 情形 下 ,根据 5 的 方差 式 
V9) - Los? 
代 人 
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4d = 1S( = 1 VOD = Ss 


或 
; VG N= 
r= ziCu(3) = 人 = 地 eS 
得 到 
2082 
= Rs {2.17) 
2 S2 
或 =- 一 全-S- (2.18) 


NT 
在 实际 工作 中 ,通常 先 计算 


3 了 2 2 
=") (2.19) 


式 中 ,C = 呈 为 总 体 变异 系数 。 如 果 末 < 0.05, 风 就 取 no, 否则 对 no 进行 修正 ; 


一 一 (2.20) 
1+ 下 
【 例 2.6】 在 例 2.3 中 ,如 果 要 求 以 95% 的 把 握 保证 相对 误差 不 超过 10% , 样 
本 量 应 该 至 少 是 多 少 ? 


解 :由 该 问题 给 出 的 条 件 :N = 100,r = 10% = 0.1 
置信 床 95% ,对 应 的 上 = 1.96 
且 已 有 了 = 5,? = 19.1111 
计算 样本 量 no: 
2 .2 2 
EE 
计算 修正 样本 最 n: 
ng 294 








因此 ,应 抽取 一 个 大 小 至 少 为 75 的 简单 随机 样本 ,才能 满足 95% 置信 度 条 件 
下 相对 误差 不 超过 10% 。 


三 .总体 参数 为 P 的 情形 
如 果 估 计 的 是 总 体 中 某 个 特征 的 单元 占 总 体 的 比例 已 ,所 用 的 估计 量 是 样本 
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比例 广 时 , 则 由 
Vp) = BON 








n N-1 
让 
d=1/VD) = NA 
或 
-YYVY( zt IN-n.PQ 
"Tt Pp TP 二 1 ”nm 
因此 
2 
dad? 
n TT (2.21) 
1+ 寺 ( a -1 
或 
在 
六 三 
"= (2.22) 
1+ 丰 (一 
在 实际 工作 中 ,通常 先 计算 
jo = 或 no = 2 (2.23) 
如 果 弱 < 0.05, 就 取 no, 否则 对 no 进行 修正 : 
"i (2.24) 





在 实际 工作 中 ,如 果 忆 在 0.5 附 近 , 可 根据 PQ 在 P = Q = 0.5 时 达到 极 大 值 
来 对 样本 量 进 行 计算 ,这 时 将 +,d 以 及 PQ = 0.25 代 人 公式 即 可 计算 样本 量 。 如 果 
全 不 能 忽略 ,就 对 样本 重 进行 必要 的 修正 例如 ,置信 度 为 95% 时 (对 应 的 + = 
1.96) ,最 大 人 允许 绝对 误差 4 = 1% , 则 必要 的 样本 量 为 ， 


2 2 
著 P< 0.1( 或 P > 0.9), 由 于 这 时 PQ 与 0.25 相差 太 大 ,用 PQ = 0.25 太 
过 保守 ,这 样 计算 的 样本 量 太 大 。 以 d -1%,P = 0.1 为 例 ,这 时 
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PPQ _ 1 962 x0.1x0.9 
识 0-07 3 458 


10 二 
比 9 604 要 小 很 多 。 

【 例 2.7】 某 销 售 公司 希望 了 解 全 部 3 000 家 客户 对 该 公司 的 综合 满意 程度 ， 
决定 用 电话 来 调查 一 个 简单 随机 样本 。 这 时 ,销售 公司 希望 以 95% 的 把 握 保证 客 
户 满 意 的 总 体 比例 P 在 样本 比例 户 + 10% 的 范围 内 ,但 对 总 体 比例 已 无 法 给 出 一 
个 大 致 的 范围 ,这 时 ,应 该 调查 多 少 个 客户 ,才能 保证 对 总 体 比例 估计 的 要 求 ? 

解 :由 该 问题 给 出 的 条 件 :N = 3 000,d = 10% = 0.1 

置信 度 95% ,对 应 的 上 = 1.96 

出 于 无 法 得 到 P 的 初始 估计 值 , 因 此 取 使 PQ 达 极 大 值 的 P = 0.5 ,得 到 最 保 
守 的 mn: 

_1.962x0.5x0.5 
m0 

计算 修正 样本 量 n; 
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注意 ,在 本 问题 中 ,由 于 型 = 了 65 = 3.2% < 5% ,所 以 修正 样本 最 "与 未 修 
正 样本 量 wo 卷 别 不 大 ,这 也 是 抽样 比 小 于 5% 时 可 以 被 忽略 的 原因 。 


四 \ 总 体 参 数 的 预先 估计 

由 上 述 对 样本 量 的 计算 可 以 看 出 ,计算 过 程 中 ,:,r 或 4 都 可 事先 规定 ,但 总 
体 均值 了 以 及 总 体 方差 S? 本 知 , 这 时 需要 对 总 体 均值 以 及 总 体 方差 进行 预 估计 。 

在 实际 工作 中 ,可 以 依照 过 去 对 同类 问题 调查 的 经 验 来 估计 ,例如 ,对 同类 问 
题 获得 过 一 个 样本 最 为 ae 的 简单 随机 样本 , 并且 已 知 在 一 定 置信 和 度 下 (比如 
好 % ) ,该 调查 对 总 体 均值 (或 总 量 ) 估计 的 相对 误差 为 ro, 则 在 同样 的 置信 和 度 下 ， 
如 果 希 望 本 次 调查 的 相对 误差 达到 x , 则 在 抽样 比 可 忽略 的 情况 下 ,可 以 近似 地 计 
算 本 次 调查 所 党 的 样本 量 ; 

n= 人 ma (2.23) 

由 这 个 公式 看 出 ,如果 调查 时 希望 相对 误差 减 小 到 原来 的 一 半 , 则 所 需 的 样本 量 为 
原来 的 4 倍 。 例 如 ro = 20% ,希望 > = 10% , 则 n = 4no。 


有 时 ,可 通过 预 调查 对 总 体 均值 及 总 体 方差 进行 估计 。 一 般 来 说 ,对 于 大 型 调 
31 











查 ,通常 费 进 行 预 调查 , 预 调查 的 目的 主要 是 检查 调查 组 织 工作 中 可 能 出 现 哪 些 问 
题 .问卷 设计 是 否 合理 等 ,并 加 以 解决 。 

有 时 ,如 果 时 间 人 允许 , 且 总 体 范围 和 目标 量 的 数量 特征 不 会 随时 间 的 变化 有 大 
的 变化 ,调查 可 以 分 为 两 步 , 首 先 确 定 一 个 可 以 承受 的 样本 量 *o, 调 查 后 对 估计 精 
度 进 行 计算 ,如 果 精 度 达 到 要 求 , 则 不 再 进行 下 一 步 ;否则 ,计算 为 达到 精度 要 求 所 
需 的 样本 量 ,再 调查 n， = n -no 的 补充 样本 。 

有 时 ,没有 同类 调查 的 经 验 ,又 不 允许 预 调查 , 则 只 能 通过 定性 分 析 , 这 时 ,最 
好 是 对 总 体 变异 系数 C 进行 分 析 并 估计 ,因为 变异 系数 通常 变化 不 大 ,根据 对 变 
异 系数 的 估计 ,利用 {2.19) 对 样本 量 进行 计算 。 

相 比 较 而 言 ,如 果 估 计 的 是 总 体 比例 ,只 要 根据 分 析 确 认 了 不 是 很 稀有 事件 
的 比例 ,也 即 只 要 PP 在 0.2 ~0.8 之 间 , 问 题 就 变 得 简单 ,因为 这 时 可 以 取 使 PQ 达 
到 最 大 的 尸 值 ( 即 P= 0.5) 来 对 样本 量 进行 保守 的 估计 。 


$2.4 ”其 他 问题 


一 、. 逆 抽样 

如 果 估 计 的 是 稀有 事件 的 比例 ,这 时 总 体 比例 己 很 小 ,用 相对 误差 比 绝对 误 
差 4 更 好 些 。 试 想 ,到 d = 1% 看 上 去 很 小 ,如 果菜 个 稀有 事件 的 比例 为 1% , 则 实 
际 上 估计 的 精度 很 差 ,到 > 就 能 避免 这 种 槛 刀 的 情形 。 

对 于 稀有 事件 ,所 需 的 样本 量 会 很 大 ,我 们 来 看 看 Pl = 1% ,P = 5% 和 PP; = 
10% 时 ,在 置信 度 95% 的 条 件 下 ,要 达到 ~ = 10% 所 分 别 需要 的 样本 量 (假定 抽 
样 比 可 忽略 )。 





ftQ2 _ 1,96° x 0.95 





Pa = 5% 时 ,nz = Pp = O10 = 7 299 
_ FQ _ 1.96 x 0.9 
P; = 10% 时 ,n3 = Bp; OPxoT = 3 4S8 


如 果 也 为 万 分 之 一 或 十 万 分 之 一 ,所 需 的 样本 量 更 大 。 

对 于 稀有 事件 的 比例 估计 问题 ,如 果 问 题 非常 重要 ,的 确 需 要 按 计 算 的 样本 量 
进行 调查 。 问 题 在 于 ,现在 只 知道 要 调查 的 是 一 个 稀有 事件 ,但 无 法 给 出 它 确切 的 
范围 ,到 底 是 万 分 之 一 还 是 十 万 分 之 一 。 从 上 面 的 例子 可 以 看 到 ,对 总 体 比例 事先 
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不 同 的 息 定 ,也 导致 的 样本 量 差 异 非常 大 \ 遇 到 这 种 问题 ,可 以 采用 起 好 (Haldane) 
提出 的 道 抽样 方法 , 即 事 先 确定 一 个 整数 mx( wm > 1) ,进行 逐个 抽样 ,直人 至 抽 到 疡 
个 所 考虑 特征 的 单元 为 止 。 设 # 是 实际 的 样本 朋 , 则 P 的 一 个 无 仿 估 计 为 ; 





(2.25) 
当 和 比较 大 ,wr 实 10 时， 
Vip') eg, (2.26) 
mr ~ 
从 而 估计 量 p” 的 变异 系数 为 : 
Co(p) = SPI ~ Ld < Lu (2.27) 


xm-l m—1 
因为 Q 很 接近 于 1, 因 此 -2 很 接近 于 Co(p') 的 上 界 , 击 
r= 1Cv(p') 
规定 了 Cu(p) 或 14,7 后 ,就 可 以 确定 ms 如 规定 Co(p") = 20%, 则 mn = 27。 
可 以 证 明 ,这 时 所 需 样本 量 的 均值 为 : 
EC = 多 (2.28) 
因此 ,对 于 非常 稀有 事件 ,实际 上 的 样本 量 ”是 很 大 的 。 例 如 ,为 万 分 之 一， 
mm = 27, 则 平均 来 看 ,n = 270 000。 


二 .设计 效应 (design effect) 

为 比较 不 同 抽样 方法 的 效率 , 我们 可 以 通过 抽样 方法 的 设计 效应 (简称 deff) 
来 进行 比较 。 设 计 效应 是 由 基 什 (L.Kish) 提出 的 ,其 定义 为 

deff = 区 {2.29) 

式 中 , Vw (7) 为 不 放 问 简单 随机 抽样 简单 估计 量 的 方差 ;V(3) 为 某 个 抽样 设计 
在 同样 样本 量 条 件 下 估计 量 的 方差。 

由 设计 效应 的 定义 , 它 就 是 将 某 个 抽样 设计 的 估计 量 的 方差 与 同样 样本 量 条 
件 下 的 不 放 问 简单 随机 抽样 简单 估计 量 的 方差 进行 比较 。 如 果 deff < !, 则 所 考虑 
的 抽样 设计 比 简单 随机 抽样 的 效率 高 ;反之 ,如 果 deff > 1, 则 所 考虑 的 抽样 设计 
比 简单 贿 机 抽样 的 效率 低 。 

例如 , 放 回 简单 随机 抽样 的 deff 为 : 





CN 一 1S2 
N-1 


ff = 


显然 ,这 时 的 deff > 1 他 放 回信 随机 抽样 的 效率 比 不 放 回 简单 随机 抽样 的 效率 
低 。 





deff 对 复杂 抽样 时 确定 样本 量 有 很 大 作用 , 在 一 定 精度 条 件 下 ,简单 随机 抽 
样 所 需 的 样本 量 wn” 比较 容易 得 到 ,如 果 可 以 估计 复杂 抽样 的 deff ,那么 复杂 抽样 
所 需 的 样本 量 为 : 

n=n X deff {2.30) 











小 结 


本 章 介绍 了 简单 随机 抽样 的 理论 及 若干 相关 的 问题 ,简单 随机 抽样 的 理论 比 
较 成 熟 , 它 是 其 他 抽样 方法 的 基础 ,可 以 说 ,其 他 抽样 方法 是 在 其 基础 上 发 展 起 来 
的 。 

在 大 多 数 情况 下 ,简单 随机 抽样 的 效率 比较 高 。 但 它 的 缺点 是 需要 在 抽样 之 前 
编制 一 份 完整 的 抽样 框 , 并 给 抽样 框 中 的 每 个 单元 赋予 一 个 编号 ,使 得 简单 随机 
样 能 够 实施 ,这 在 实际 工作 中 往往 难以 实现 ,因为 当 抽样 的 总 体 比 较 大 时 ,编制 一 
个 完整 的 抽样 框 比较 困难 或 者 根本 就 不 可 能 ,这 时 就 需要 使 用 其 他 抽样 方法 简单 
随机 抽样 的 另 一 个 缺点 是 样本 在 总 体 中 比较 分 散 , 这 往往 使 得 调查 难以 实施 ,因为 
寻找 样本 单元 可 能 比较 困难 或 花费 较 多 的 时 间 ,从 而 使 得 调查 的 费用 大 大 提高 ， 
样 调查 费用 节省 的 优点 反而 得 不 到 体现 。 在 实际 工作 中 , 如果 出 现 这 类 问题 ,就 必 
须 采取 其 他 抽样 方法 。 









































本 章 附 录 ”简单 随机 抽样 简单 估计 量 性 质 的 证 明 





放 回 简单 随机 抽样 所 得 到 的 样本 是 独立 同 分 布 的 样本 ,对 其 性 质 的 证 明 在 统 
计 学 教科 书 中 可 以 找到 。 这 里 我 们 主要 讨论 不 放 回 简单 随机 抽样 估计 量 性 质 的 证 
明 。 
由 于 总 体 总 晨 ,总体 均 值 之 间 只 差 一 个 常数 , 即 
Y= NY 








对 于 总 体 中 具有 某 种 特征 的 单元 的 比例 ,如 果 定 义 
y= 有, 第; 个 单元 具有 所 葵 虑 的 特征 1 
' | 0, 其 他 四 

则 有 
对 总 体 比例 的 估计 类 似 于 对 总 体 均 值 的 估计 。 

内 此 ,下 面 只 证 明 性 质 1、 性 质 2、 性 质 3, 分 别 对 应 的 时 (2.2)、{2.5)、(2.6) 
式 。 

1. 证 明 性 质 1: 对 于 简单 随机 抽样 ,7 是 了 的 无 偏 估计 。 

证 明 : 这 个 性 质 的 证 明 方法 有 多 种 ,下 面 介 绍 其 中 的 两 种 。 

方法 一 :对 于 固定 的 有 限 总 体 ,估计 量 的 期 望 是 对 所 有 可 能 样本 求 平均 得 到 
的 。 对 于 一 个 大 小 为 N 的 总 体 ,所 有 样本 量 为 ” 的 简单 随机 样本 有 CR 个 ,因此 
, 之 了 
五 (了 ) = Ge = 
式 中 的 求 和 号 是 对 所 有 C% 个 样本 的 求 和 。 为 了 求 出 分 子 上 的 和 式 ,我 们 要 算出 总 
体 中 每 个 特定 的 单元 y; 在 不 同 的 样本 中 出 现 的 次 数 。 由 于 当 样 本 中 含有 特定 的 单 
元 几时 ,样本 中 其 他 n ~ 1 个 位 置 的 单元 要 从 总 体 N - 1 个 单元 中 抽取 ,因此 , 含 
有 yi 的 样本 共有 CJ 个 ,于 是 分 子 为 : 


D3= Er ty) = HC YY, 




















注意 到 
LN _N NAD _N, 
C= TN I a CDIN i ~ nC 
所 以 
y 
1 CE 2 Y Ny 
ED -2 


N 
方法 二 :( 对 称 论证 法 ) 由 于 每 个 单元 出 现在 总 体 所 有 可 能 样本 中 的 次 数 相 
同 ,因此 
Elyi+ yt + wn) 
一 定 是 
Yi+t+ Ya TY 
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的 倍数 , 且 这 个 信 数 就 是 否 , 因 为 前 者 有 项 ,而 后 者 是 N 项 ,因此 
E(5) = le(Sy)= 六 DY =Y 


2. 证 明 性 质 2: 对 于 简单 随机 抽样 ,3 的 方差 为 V(7) = 


证 明 : 由 定义 
v= EG- YP= EL -7) 
= BE [Se -7 7)] 
= 志 E[ 光 Gy - 77]+ 击 BE[ Ds ~ Wy ~ Y)] 
根据 对 称 论证 法 ,有 


。 x 
E[2(Y,- YY]= 训 DD (YY 





由 于 E[2(w-Y)(y -7)] 中 的 求 和 是 对 下 三 上 项 的 ， 


jy 
CY; -了 )(Y, - 了 ) 中 求 和 是 对 NG = 1) 项 的 ,因此 ,根据 对 称 沦 证 法 ,有 
i 
E[D(y -7)% - 7)]= A DY- 
因此 
V(y) = bE a[S 0 D+ [D0 - Y)(y, - 7)] 


n 
= 十 名 (YY 二 OP 




















和 

= 页 [ 加 (v7 + 间 DY Dy- 7) 
| 

= 机 |( 人 中 上 关中 
=- 志 入 or 

-RY 7)? = Ns’ 





= 工友 S2 


如 
3. 证 明 性 质 3: V3) 的 样本 无 偏 估计 为 v(3) = 上?。 
证 明 :将 政 写 为 : 


1_~ 2 
= i 一 5) 





nn 


[Ys — YP- n(y— ¥)2] 
由 对 称 论证 法 


EC = |E{ DG- ?7]- GZ 
1 N-1 N-n 
= Ts 








S2 
= NG DN-1)-(N- 7)} 


由 于 简单 随机 样本 的 方差 »? 是 总 体 方差 S? 的 无 偏 估计 ,因此 v(3) 是 Y(7) 
的 无 偏 估计 。 


习 题 


1. 判断 下 面 要 估计 的 总 体 日 标量 分 别 属于 什么 类 型 
(1) 测试 一 名 大 学 生 的 英语 词 污 量 ， 

(2) 调查 城市 居民 家 庭 平均 用 电量 ; 

(3) 估计 空气 中 氮 氧 化合物 的 含量 ; 

《4) 合计 湖 中 鱼 的 数量 ; 

(5) 测试 日 光 灯 的 寿命 ; 





《6) 估计 居民 家 庭 用 于 做 饭菜 及 饮用 的 用 水 量 占 家 庭 总 用 水 其 的 比重 ， 

(7) 估计 婴 孔 出生 性别 比 ; 

(8) 检测 食盐 中 的 碳 含 量 。 

2. 试 判 浙 下 面 数 字 的 产生 是 否 是 等 概率 的 。 

(1) 总 体 编号 为 1 ~ 35, 在 00 一 99 中 疗 生 随机 数 ,车 + = 00 或 r > 35, 则 
抛弃 重 抽 。 

(2) 总 体 编号 为 1 ~ 35, 在 00 ~ 99 中 产生 随机 数 >, 若 -之 30, 则 取 = 
r 一 50, 否则 = .如果 = 00 或 > 35, 则 抛弃 重 抽 。 

(3) 总 体 编号 为 1 ~ 35, 在 00 ~ 99 中 产生 随机 数 >, 以 上 除 以 35, 余 数 作为 被 
抽 中 的 数 ,如 果 余 数 为 0, 则 被 抽 中 的 数 为 35。 

(4) 总 体 编号 为 1 580 一 2 107, 在 000 ~ 527 中 产生 一 个 随机 数 ,以 1 580 + > 

为 被 抽 中 的 数 。 
3, 某 项 长 期 调查 项 日 在 全 面 展开 之 前 进行 了 试点 ,调查 了 一 个 样本 量 为 800 
的 简单 随机 样本 ,方案 设计 人 员 以 这 个 样本 为 总 体 ,计算 出 达到 精度 要 求 时 需要 的 
样本 量 为 80 ,从 而 相应 的 抽样 比 为 10% , 据 此 ,方案 设计 人 员 要 求 在 以 后 的 调查 
中 ,抽样 比 为 10% , 即 必须 调查 总 体 单位 中 的 10% 。 你 认为 设计 人 员 的 做 法 有 何不 
妥 ? 

4. 设 总 体 为 :0,1,3,5,6| ,计算 总 体 均值 .总体 方差 和 5S?; 给 出 全 部 = 
2 的 样本 ,并 验证 E(7) = 了 及 E(s?) = S2。 

5. 为 调查 学 生 购 书 支出 , 某 高 校 在 全 校 6 000 名 大 学 生 中 按 简单 随机 抽样 抽 
出 78 名 学 生 ,调查 了 他 们 最 近 一 个 学 期 用 于 购书 支出 后 ,得 到 了 = 102.30( 元 )， 
?2 = 13 712, 试 估计 该 校 大 学 生 最 近 一 个 学 期 用 于 购书 的 总 支出 , 并 给 出 估计 的 
标准 差 。 若 要 求 在 置信 度 95% 下 ,估计 的 相对 误差 不 越过 10% , 则 应 该 抽出 多 少 学 
生 进 行 调查 ? 

6. 从 5000 个 电子 元 器 件 的 一 批 产 品 中 无 放 回 地 着 机 抽取 100 个 并 进行 了 检 
验 , 其 中 合格 品 为 93 个 . 试 估计 这 批 产 品 的 合格 率 ,并 给 出 估计 的 标准 差 。 如 果 在 
95% 置信 和 度 下 ,要 使 估计 的 绝对 误差 不 超过 1 % , 则 需要 多 少 样本 量 ? 

7. 为 测试 学 习 某 种 手工 操作 所 需 的 时 间 ,在 人 群 中 随机 抽 选 了 10 名 志愿 者 ， 
记录 上 10 名 志愿 者 掌 据 这 项 操作 所 用 的 时 间 ( 单 位 :分 ):16,21,17,15,26,20,24， 
23,24,21, 试 估计 学 习 该 手工 操作 所 用 的 平均 时 间 ,并 给 出 估计 95% 的 置信 区 间 。 

8, 某 地 区 拥有 10 万 户 居民 , 某 保险 公司 欲 对 该 地 区 居民 购买 保险 的 情况 进行 
调查 ,在 全 体 居 民 户 中 按 简单 随机 抽样 抽出 50 户 岂 民 户 ,通过 调查 得 知 其 中 有 3 
户 购 买 了 保险 ,。 试 估计 该 地 区 居民 户 投 保 的 比例 ,并 给 出 估计 的 标准 差 ,如 果 希 望 
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在 95% 殴 信 度 下 (对 应 的 上 = 2) ,估计 的 绝对 误差 不 超过 1% , 则 所 需 的 样本 景 为 
多 少 ? 

9. 对 某 个 问题 获得 了 一 个 样本 量 为 no 的 简单 随机 样本 ,在 一 定 置 信和 度 下 (对 
应 四 ,该 样本 对 总 体 均值 估计 的 相对 误差 为 ro, 则 在 同样 的 置信 度 下 ,如 果 希 望 相 
对 误差 达到 ~, 则 在 抽样 比 可 忽略 的 情况 下 ,证明 所 需 的 样本 景 为 : 


2 


La 
n= no 
2 
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【六 计 学 系 娩 数 材 






































学 习 了 简单 随机 抽样 之 后 ,我 们 知道 了 影响 估计 精度 的 因素 除了 样 木 量 ,总体 
大 小 (通常 不 是 主要 因素 ) 以 外 ,还 有 总 体 的 方差 .也 就 是 说 在 其 他 因素 不 变 的 情 
说 下 ,总 体 方差 超大 ,估计 的 精度 越 差 ;反之 ,估计 的 精度 就 越 高 ,对 于 一 个 总 体 ,其 
方差 是 客观 存在 日 无 法 改变 的 ,但 如 果 对 总 体 单元 进行 分 类 , 即 分 成 若 于 子 总 体 ， 
在 子 总 体内 单元 之 间 比 较 相似 ,使 每 一 个 子 总 体 的 方差 变 小 ,这 样 只 顺 在 子 总 体 中 
抽取 少量 样本 单元 ,就 能 很 好 地 代表 子 总 体 的 特征 .从 而 提高 对 整个 总 体 估 计 的 精 
度 。 这 就 是 人 们 常用 的 分 层 抽样 技术 。 

本 章 共 分 五 节 ,第 一 节 将 介绍 分 层 随机 机 样 的 定义 、 使 用 场合 以 及 符号 ;第 二 
节 介绍 估计 量 及 其 性 质 ; 第 二 节 介绍 样本 量 的 分 配 原则 ;第 下 节 介 绍 样本 量 的 确 
定 ; 第 五 节 介 绍 分 层 抽样 的 芥 干 问题 。 











亚 


§3.1 引 


一 、 定义 与 作用 

(一) 定义 

在 抽样 之 前 , 先 将 总 体 N 个 单元 划分 成 个 并 不 重复 的 子 总 体 ,每 个 子 总 体 
和 0 





称 为 层 , 它 们 的 大 小 分 别 为 Ni, Na，…Nr ,这 工 个 层 合 起 来 就 是 整个 总 体 (N = 
Sm ,然后 ,在 每 个 层 中 分 别 独 立地 进行 抽样 ,这 种 抽样 就 是 分 层 抽样 ,所 得 到 
的 样 相称 为 分 层 样本 。 ,如 果 每 层 都 是 简单 随机 抽样 , 则 称 为 分 层 随机 抽样 ， 所得 到 
的 样本 称 为 分 层 随机 样本 。 

上 述 定义 也 表明 ,总 体 中 的 每 一 个 单 所 一定 属于 并 且 只 属于 某 一 个 层 ,而 不 可 
能 问 时 访 于 岗 个 层 或 不 属于 任何 -个 翌 。 

(二 ) 作用 

分 层 抽样 在 实际 工作 中 应 用 得 非常 广泛 , 主要 是 因为 它 共有 其 他 抽样 方法 所 
没有 的 特点 。 
. 分 层 抽样 的 抽样 效率 较 高 ,也 就 是 说 分 层 抽样 的 估计 精度 较 高 ,这 是 因为 
分 层 抽样 估计 量 的 方差 只 和 层 内 方差 有 关 , 利 层 间 方 差 无 关 。 因 此 ,人 们 可 以 通过 
对 总 体 分 层 , 尽 可 能 地 降低 层 内 差异 , 使 层 间 差异 大 ,从 而 提高 估计 的 精度 。 另 外 ， 
直观 上 也 可 以 想像 得 出 ,简单 随机 抽样 可 能 出 现 极端 的 情况 ,样本 偏向 某 一 部 分 ， 
和 有 样 每 层 都 要 抽取 一 定 的 样本 单元 ,因此 样本 在 总 体 中 分 布 比较 均匀 。 
2. 分 层 抽样 不 仅 能 对 总 体 指 杯 进行 推算 ,而 用 能 对 各 层 指标 进行 推算 。 有 时 
调查 的 日 的 不 仅 要 推算 总 体 指标 ,可 能 还 要 推算 各 层 的 指标 ,例如 , 某 市 对 全 市 企 
业 进 行 抽样 调查 ,要 求 最 终 能 给 出 各 行业 的 指标 , 因此 按 行业 分 层 后 ,所 得 的 样本 
\ 仅 能 推算 全 市 的 指标 ,也 能 对 各 行业 进行 推算 
3. 层 内 抽样 方法 可 以 不 同 , 而 且 便 于 抽样 工作 的 组 织 -例如 , 某 项 全 国 范围 的 
大 型 抽样 调查 ,要 编制 全 国 范围 的 抽样 框 往往 是 一 件 非常 困难 的 事 , 但 如 果 抽 样 按 
行政 区 划 或 行业 分 层 后 ,可 以 调动 各 级 主管 部 门 的 积极 性 ,分 头 编制 抽样 枢 并 实施 
抽样 的 组 织 和 调查 工作 ,为 了 组 织 调查 的 方便 ,各 层 可 以 根据 层 内 的 特点 ,分 别 采 
用 不 同 的 抽样 方法 。 




























































































二 ,使 用 场合 
根据 分 层 抽样 的 特点 ,分 层 除 了 可 以 提供 子 总 体 指标 和 便于 调查 的 组 织 实施 ， 
通常 ,使 用 分 层 抽 样 的 主要 日 的 是 为 了 提高 估计 的 精度 。 为 充分 利用 分 层 抽样 的 特 
点 ,在 一 项 抽样 测 查 项 目 中 ,往往 反复 使 用 分 层 抽样 方法 。 

在 对 层 进行 具体 划分 时 ,通常 考虑 如 下 原则 

1. 层 内 单元 具有 相同 性 质 ,通常 按 调查 对 象 的 不 同类 型 进行 划分 。 这 时 ,分 层 
抽样 能 够 对 等 -类 的 日 标量 进行 估计 、 

2. 尽 林 能 使 层 内 单元 的 标志 值 相近 , 屋 闻 单元 的 差异 尽 可 能 大 , 从 而 达到 提 
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高 抽样 估计 精度 的 目的 。 


3. 绛 按 类 型 又 按 层 内 单元 标志 值 相近 的 原则 进行 多 村 


计 类 值 以 及 提高 估计 精度 的 日 的 。 


分 层 ,同时 达到 实现 估 





4. 抽样 组 织 实 施 的 方便 ,通常 按 行政 管理 机 构 设置 进行 分 层 。 
通常 用 于 分 层 的 指标 有 行政 区 划 、 地 理 位 置 海拔 高 度 ,行业 ,经 济 发 达 程 度 、 


企业 规模 ,家 庭 收 入 水 平 ,性 别 等 。 

















例如 ,对 全 国 范围 汽车 运输 的 抽样 调查 ,调查 目的 不 仅 要 推算 全 国货 运 汽车 完 
成 的 运 量 , 还 要 推算 不 同 经 济 成 分 (国有 、 集 体 ` 个 体 ) 汽车 完成 的 运 量 。 为 组 织 的 
方便 ,首先 将 货运 汽车 总 体 按 省 分 层 ,由 各 省 运输 管理 部 门 负责 省 内 的 调查 工作 ; 
各 省 再 将 省 内 拥有 的 汽车 按 经 济 成 分 分 层 ; 为 提高 抽样 效率 ,再 按 吨 位 对 汽车 分 


层 。 


又 如 , 某 高 校对 学 生 在 宿舍 使 用 电脑 的 情况 进行 调查 ,根据 经 验 ,本 科 生 和 研 
究 生 拥有 电脑 的 状况 差异 较 大 ,因此 ,在 抽样 前 对 学 生 按 本 科 生 和 研究 生 进行 分 度 


三 、 符 号 说 明 


我 们 用 下 标 h 表示 层 号 (h = 1,2,… ,上 )。 关 于 第 h 层 的 记号 如 下 : 


单元 总 数 : N; 
样本 单元 数 : n 


第 i 个 单元 标志 值 (观察 值 ) : yw 


N 
层 权 : Wi = 人 


抽样 比 : 有 = 六 
总 体 均值 ;了 = 二 > Yu 
Ni 


样本 均值 := 小 Dw 


总 体 方差 :8 = (Ys 一 了 
了 0 


样本 方 闫 :只 = 下 上 和 (os -可 
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$3.2 全 计量 


一 、 总 体 均 值 的 估计 

{一 ) 简单 估计 量 的 定义 

对 于 分 层 样本 ,对 总 体 均 值 了 的 估计 是 通过 对 各 层 的 Y; 的 估计 , 接 层 权 Wi 
加 权 平 均 得 到 的 。 公 式 为 ; 


Y, = SW NY, (3.D) 
如 果 得 到 的 是 分 层 随机 样本 , 则 总 体 均值 Y 的 简单 估计 为 : 

= 5 Ws = BN (3.2) 
{二 ) 估计 重 的 性 质 


性 质 1 ”对 于 一 般 的 分 层 抽 样 ,如 果 , 是, 的 无 偏 估计 (= 1,2,…,), 则 
,是 了 的 无 偏 估计 。Y, 的 方差 为: 
V(Y,) = Smv Y,) (3.3) 


值得 注意 的 是 ， 只要 对 各 层 估计 是 无 信 的 ， 则 对 总 体 的 估计 也 是 无 偏 的 ,因此 ， 
各 层 可 以 采用 不 同 的 抽样 方法 ,只 要 相应 的 估计 量 是 无 偏 的 , 则 对 总 体 的 推算 也 是 
无 偏 的 。 














性 质 ”对 于 分 层 隧 机 抽样 ,5 是 了 的 无 仿 信 计 ,5, 的 方差 为 ， 

Vg) = DD WIV(G) = Sm LS (3.4) 
性 质 3 ”对 于 分 层 随机 抽样 ,VC5) 的 一 个 无 偏 信 计 为 : 

vB) = wv) = = DD Wi A (3.5) 
二 ,总 体 总 量 的 估计 


{ 一 ) 简单 估计 重 的 定义 
总 体 总 量 Y 的 估计 为 : 





- 
Y = NY7。 = 0 
per 


如 果 得 到 的 是 分 层 随 机 样本 , 则 总 体 总 量 Y 的 简单 估计 为 


了 = Ny, 
{二 ) 估计 量 的 性 质 


由 于 与, 只 差 一 个 常数 ， 














此 ,了 与 了 ,具有 同样 的 性质 。 


(3.6) 


{3.7) 


性 质 4 ”对 于 一 般 的 分 层 抽 样 ,如 果 了 是 了 的 无 偏 估计 ,册立 是 Y 的 无 偏 估 


计 。Y 的 方 着 为 : 


、 
VY) = NV(Y) = > Y( 名) 
be 


























L 、 L _ 
= NO) WIV(Y,) = D) NIV(Y,) (3.8) 
pa be 
性 质 5 ”对 于 分 层 随机 抽样 ,了 的 方差 为 : 
vO) = DNV) = DN LL G3.9) 
各 fed 
性 质 6 ”对 于 分 层 随 机 抽样 , VC) 的 一 个 无 偏 估 计 为 : 
上 
29) = DNiw(5) = Sm A (3.10) 
【 例 3.1] 调查 菜 好 区 的 居民 角 制 品 年 消费 支 昌 ， 以 居民 户 为 抽样 单元 ,根据 
经 济 及 收入 水 平 将 居民 户 刘 分 为 4 层 ,每 层 按 简单 随机 抽样 抽取 10 户 ,调查 获得 
如 下 数据 (单位 :元 ) ,如 表 3.1。 佑 计 该 地 区 居民 奶 制品 年 消费 总 支出 及 合计 的 标 
准 差 。 
囊 3.1 样本 户 奶 制 品 年 消费 支出 
样本 户 奶 制 品 年 消费 支出 
屋 | 居民 户 总 数 1 2 3 4 5 6 7 8 9 10 
1 200 10 40 0| 110 15 10 40 80 WW 0 
2 400 50| 130 的 80| 100 55| 160 85| t60| 170 
3 | 750 180| 260| 110 0 140 0| 200| 180| 300| 220 
4 ] 1 500 50 35 15 20 30 25 10 30 25 



































解 :由 上 表 ,N = 2 850, ns = 10(A = 1 


各 层 的 层 权 及 抽样 比 为 : 
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12,3,4) 


全 
La 
pa 











Wi = 症 = 襄 ~00018 站 = 是 =300 一 0.05 
Ni 400 ~ .10 
Wa = -00.14035 f= -060.025 
N750 ~ = 
Wi= R80 人 ~ 031 f= ~ 60033 
= 1500 、 -224 10. 
Wa = 50 ~ 0.52632 f= N= T5000067 
各 层 样 本 均值 及 样本 方差 为 ; 
Wl 
= 起 39.5 
名 
时 = 1 TC Ha 1 624.722 
上 ma 


同 理 可 得 ”= 105,53 = 165,54 = 24 
322 166.667, s3 = 8 205.556，5 2 193,333 
入 此 ,个 寺 般 制品 年 消费 总 支出 为 ， 
4 
Y= ZN 
= 200 x 39.5 + 400 x 105 + 750 x 165 + 1 500 x 24 
= 209 650( 元 } 
估计 最 方 益 及 标准 差 的 样本 估计 为 : 
4 全 -ff 
v(¥) = ND Who(y) = > NI hs 2 5,39 x 108 
pe 全 
5(7) =W au(7) = 23 208( 元 ) 
因此 ,我 们 可 以 以 95% 的 把 握 说 该 地 区 居民 奶 制品 年 消费 总 支出 在 
Y + i(Y) = 209 650 + 1.96 x 23 208( 元 ) 
之 间 。 换 名 话说 ,在 164 162 元 ~ 255 138 元 之 效 。 


三 ,总 体 比例 的 估计 
{ 一 ) 简单 估计 年 的 定义 
总 体 比 例 的 估计 为 : 
ps = Wip (3.11) 
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{二 ) 估计 重 的 性 质 
如 果 定义 
Y -| 1, 第 i 个 单元 具有 所 考虑 的 特征 ， 2N 
”1 0, 其 他 
则 对 总 体 比 例 的 估计 类 似 对 总 体 均值 的 估计 ,这 时 ps 与 ,具有 同样 的 性 质 。 
性 质 7 对 于 一 般 的 分 层 抽样 ,如 凡 pr 是 Ps 的 无 偏 估计 4h = 1,2,…, 工 ), 则 
pu 是 了 的 无 偏 估计 。p, 的 方差 为 : 


V(ps) = Sv {3.12) 
-A 
性 质 8 对 于 分 层 随 机 抽样 ， ps 是 已 的 无 偏 估计 ,注意 到 
V(ps) = 关 二 区 Pil EN, 1 
因而 p, 的 方差 为 : 
Lv NON ~ ma) PQ 
Vg) = 放 鸣 Vo) = Mm 
~ 1 NE(N, ~ ni) PiQs 
和 之 N? Ni a 
= mu -hh) i (3.13) 
入 
性 质 9 ”对 于 分 层 随机 抽 笠 ， vt 的 一 个 无 偏 估计 为 ; 
4 NECN — 
vpr) = 这 Wiv( pi) = 韦 交 Se im 
= Pa (3.14) 


【 例 3.2] 在 例 3. 1 的 调查 中 ， 和 讽 直 了 居民 户 村 有 家 放电 及 的 捕 况 ， 获得 
如 下 数据 (单位 : 台 ), 如 才 3.2。 估 计 该 了 区 居民 拥有 家 庭 电 脑 的 比例 及 估计 的 标 

















表 3.2 样本 户 拥有 家 庭 电 脑 情 况 
I 样本 户 拥有 家 庭 电 脑 情况 
| Bag 213|415[e617[8T 9 lnm 
1 200 | 0|10|0 1 ofolo 1|010 
2 | 400 0 ，1 0 7:0 0 , 0 0 1 0 1 0 
3 750 1 1|1050|010ol 1 
4 | 1 500 Lo01ololo olololo lon 


























解 :由 上 表 可 得 
pi =0.2,p2 = 0.2,p3= 0.4,p4 = 0. 
根据 前 面 对 各 房屋 权 W 及 抽样 比 j 的 计算 结果 ,可 得 各 层 估计 最 的 方 此: 


v(p1) = (1 -0 直 和 ~0.0169 
op) = 17 fo) LE 0.0173 


vp3) = (1 -有 起 0.0263 





wp) = (1 用) 二 2 0.0099 


因此 ,该 地 区 居民 拥有 家 庭 电 脑 比例 的 估计 为 : 





4 4 
I 
Pr = 了 Wop = NO Np 
Ca 信和 


__l1 
= F7850(200 0.2+400 x0.2+750x0.4+1500x0.1) 
= 0.2 
估计 量 的 方 券 为 : 
二 
wpe) = > Nio(p) 
Ni 
__l 
2 850 
+ 1 500? x 0.009 9) 
~~ 0.005 
估计 量 的 标准 差 为 
s(pa) = Vopr) 0.07 


{200? x 0.016 9 + 400? x 0.017 3 + 750° x 0.026 3 





$3.3 ”样本 量 在 各 层 的 分 配 


对 于 分 层 抽样 , 当 总 的 样本 量 一 定时 ,还 需 研 究 各 层 应 该 分 配 多 少 样本 此 的 问 
题 ,因为 对 总 体 推 算 时 ,估计 其 的 方差 不 仅 与 各 层 的 方差 有 关 , 还 与 各 层 所 分 配 的 
样本 最 有 闫 ,实际 工作 中 有 不 网 的 分 配方 法 ,可 以 按 各 层 单元 数 占 总 体 单元 数 的 比 
例 分 配 , 也 可 以 采用 使 估计 量 总 方差 达到 最 小 等 几 种 六 法 进行 样本 其 的 分 本 < 
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一 、 比 例 分 配 
这 里 的 比例 分 配 指 的 是 按 各 层 单 元 数 占 总 体 单元 数 的 比例 ,也 就 是 按 各 层 的 


层 权 进 行 分 配 , 这 时 
wm _ MN 和 
WN/ (3.15) 


对 于 分 层 随机 抽样 ,这 时 总 体 均值 Y 的 估计 是 : 


L z 

1 Tp 1 1 

Bop = Sy Wi = >) ED = > > 
f 





帮工 1 Po 
1 Ww a 
= TY w= Ll y=3 (3.16) 
| Nl 
总 体 比例 P 的 估计 是 : 
L 
om = p= a (3.17) 


这 是 因为 总 体 中 的 任 一 个 单元 ,不 管 它 在 娜 一 个 层 , 都 以 同样 的 概率 入 样 ,因此 按 
比例 分 配 的 分 层 随 机 样本 ,估计 量 的 形式 特别 简单 .这 种 样本 也 称 为 白 加 权 的 样 
本 。 





3 个 谨 差 为 ， 
; Naw i 
Vypep) = WIV) - 2 Ww 有 — 
= Rl i 
加 
-Ws (3.18) 
A 
pormp 的 方差 为 : 
一 NPQ; 
V ppp) = 也 全 总 人 Nl 人 ~ i /> > WaPrQs (3.19) 
二 ,最 优 分 配 
(一 ) 最 优 分 配 


在 分 层 随机 抽样 中 ,如 何 将 样本 量 分 配 到 各 层 ,使 得 在 总 费用 给 定 的 条 件 下 ， 
估计 晤 的 方差 达 鳃 最 小 ,或 在 给 定 估计 景 广 差 的 条 件 下 ,使 总 费用 最 小 ,能 满足 这 
个 条 件 的 样 不 量 分 配 就 是 最 优 分 配 。 

如 果 我 们 考虑 简单 线性 费用 两 数 , 总 费 几 
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C= Non (3.20) 
1 


则 这 时 的 最 优 分 配 是 ， 


WS 
yo 
全 - 和 站 人 二 12 3.21 
CE Wi 2 (3.21) 
er 





Cri/ 

由 此 得 出 下 面 的 行为 准则 ,如 果菜 一 层 单元 数 较 多 ,内 部 差异 较 大 ,费用 比较 
省 , 则 对 这 一 层 的 样本 量 要 多 分 配 一 些 。 

{二 )Neyman( 内 黑 ) 分 瑟 

对 于 分 层 随机 样本 ,作为 特例 ,如 果 每 层 抽 样 的 费用 相同 , 即 = c 时 ,最 优 分 
配 可 简化 为 





Ng) NS 
Hh = 3 = ,2 (3.22) 
> WaSs SNS 
pe 加 | 
这 种 分 配 称 为 Neyman 分 配 。 这 时 , VC ) 达到 最 小 。 
L 
Veal3s) = 二 (WiS - WS? (3.23) 
n nl NR 


【 例 3.3]( 续 例 3.1) ”如 果 样 本 量 仍 为 x = 40, 则 按 比例 分 配 和 Neyman 分 配 
时 ,各 层 的 样本 且 应 为 多 少 ? 
解 : 按 比例 分 配 时 ,各 层 的 样本 基 为 : 
nt = Win 0.070 18 x 40 = 2.81 
n2 = Wn 0.140 35x 40 = 5.61 
n3 = Wan 0.263 16 x 40 = 10.53 
14 = Wan 0.526 32 x 40 = 21.05 
即 各 屋 的 样本 量 分 别 为 3,6.11,20。 
对 于 Neyman 分 配 , 根 据 前 面 对 Wi 及 ss 的 计算 结果 ,得 到 
Wisi 0.070 18 x v1 624.722 = 2.828 6 
Was ~ 0.140 35 x v2 166.667 = 6.5330 
Wasy 0.263 16 x v8 205.556 = 23.838 0 
Wass 0.526 32 x V193.333 = 7.318 1 
y Wiss = 2.828 6 + 6.5330+23.8380+7.318 1 = 40.517 75 


A 
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因此 , 按 Neyman 分 本 时 ,各 层 应 分 配 的 样本 盟 为 ; 
Wisl 2.828 6 


i = 40X 交 5 个 2.79 
2 Ws 


ol 


na 2 6.45 





na 23.53 
na 7.23 
凤 各 屋 的 样本 晤 分 别 为 3,7,23,7。 
(三 ) 某 些 层 和 要求 大 于 100% 抽样 时 的 修正 
按 最 优 分 配 时 ,有 时 抽样 比 广 = 位 较 大 , 某 个 层 的 S, 又 比较 大 , 则 可 能 出 现 按 
最 优 分 配 计算 的 这 个 层 的 样本 量 ni 超过 NN; 的 情况 ,实际 工作 中 ,如 果 第 上层 出 现 
这 种 情况 ,最 优 分 配 是 对 这 个 层 进 行 100% 的 抽样 , 即 取 mu = N, ,然后 ,将 镜 下 的 
样本 明 n - zz 按 最 优 分 配 分 到 各 屋 


$3.4 ”样本 量 的 确定 


一 一般 公式 
令 4 = ?ze 其 中 so 已 经 选 定 ,于 是 当 方差 V 给 定时 ,由 式 (3.4): 








(3.24) 





如 果 售 计 精 度 是 以 误差 限 的 形式 给 出 , 则 V = [至 】 = ( 他】 ,< 为 绝对 误差 
限 : 为 机 对 误 关 限 17 为 标准 正 态 分 布 的 双 侧 * 分 位 数 ;了 为 总 体 均值 -这 时 ,上 式 
也 可以 表 未 为 : 


Eg 























SS WiS; 
2 eh (3.25) 
”da Dws: yr ?ws 
(: ) + N t ) N 
当 按 比例 分 瑟 时 ,x = Wi 
> ws 
n= “ws (3,26) 
V+ 二 
实际 工作 中 ,n 的 计算 可 以 分 为 两 步 , 先 计算 
> WS 
no 二 V 
然后 进行 修正 : 
n= 
RS 
当 按 Neyman 分 配 时 ,xm = ws 
(> WSi)? 
n= (3.27) 
2 WaS 
V+ 


N 


【 例 3.4】( 续 例 3.1) 如 果 要 求 在 95% 置信 度 下 ,相对 误差 不 超过 10% , 则 按 
比例 分 配 和 Neyman 分 配 时 ,总 样本 量 分 别 为 多 少 ? 


解 : 当 按 比例 分 配 时 


由 前 面 的 计算 结果 ,可 以 得 到 各 层 的 Wisi。 


Ww 
2 
mi 
wi = 


> Wis? = 2 679.22 


在 95% 置信 度 时 ,对 应 的 := 1.%, 又 ys = 


= 7 Ren X 1 624.722 2 114.016 


Fen X 2 166.667 ~ 304.094 


wen X 8 205.556 ~ 2 159.36 


= DRsn X 193.333 sx 101.754 
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因此 得 到 
_ fryay 2 0.Lx73.561 4 _ 
V = ( > ) = (CC ) 14.086 
由 此 可 以 得 到 


SD Ws _ 2679.22 
= 90.2 
对 mo 进行 修正 ,得 到 修正 后 的 =: 


0 190.2 








Ei 


1 0 11+ 10 
N 2 850 

当 按 Neyman 分 配 时 : 

由 前 面 的 计算 ,已 有 Y ,各 层 的 Wosi ,Wis? 及 Wi > Wi。 

央 此 , 按 Neyman 分 配 时 所 需 样 木 基 ”为 : 

Ww) 40.517 73? 

Sw 14 .086 1 2 619.22 

N 





n= 





110 





V+ 2 850 


综合 上 述 , 按 比 例 分 配 时 ,样本 量 至 少 应 为 179; 按 Neyman 分 配 时 ,样本 量 至 
少 应 为 110。 


二 、 最 优 分 配 需要 考虑 费用 时 


在 最 优 分 配 时 ,如 果 考 虚 费 用 为 简单 线性 费用 函数 
C=cot Yam 
Ee 
则 由 式 (3.21)， 
WhSh 
va 
WS 
mr 
党 方差 VY 给 定时 ,将 其 代入 式 (3.24) 得 到 样本 三 为 ; 
» 2 A WS Ye CWS) (3.28) 
2 WaSh 
V+ 
而 当 总 费用 C 是 给 定时 ,由 本 章 附录 4, 有 





1,2, 


wh = 
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WS 
nm = K ~ 











Ya 
则 
C-co= 2 om = K2 V ch WAS 
k= Ce 
VW 
nC- WSs 
Ah LL 
2 V Ch WaS Vo 
对 其 求 和 得 到 样本 量 为 ; 
(Co 也 奖 | (Co 也 旁 | 
A= 二 Ch Ch (3.29) 
WS Vo NS, Ves 
三 ,总 体 参 数 为 P 的 情形 
当 方 差 V 给 定时 ,如 果 Ns; 都 比较 大 ,使 得 
JR -1 
则 总 样本 量 为 ; 
(一 ) 按 比例 分 配 
Vv + ee dl 
或 mo- a 
1+ 
N 
(二 }Neyman 分 配 
2 
-VB ) 全 人 (3.31) 
V+ A Lh 


计算 样本 基 之 前 ,需要 对 Ps 作 预 估计 。 
【 例 3.5]( 续 例 3.2) 


如 果 要 求 在 95% 置信 和 度 下 ,绝对 误差 不 超过 5% , 则 按 
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比例 分 配 和 Neyman 分 配 时 ,总 样本 量 分 别 为 多 少 ? 
解 :在 置信 和 度 95% 时 ,对 应 的 : = 1.96, 而 绝对 误差 4 = 5% ,因此 


V= (全 = 他 从) = 0.000 651 


按 比例 分 配 时 
由 前 面 的 计算 结果 ,可 以 得 到 


NPaQ 
Bmp - Se 


= _ 1 
= F850(200 x0.2x0.8+ 400x0.2x0.8+750x0.4 


x0.6+1500x0.1x0.9) 
0.1442 
_ WPQ 0.142 


?0 V ~ 0.000 651 
调整 后 的 样本 量 为 : 


np, 221.5 


?77 no 7, 221.5 


1+ NW 1+2850 


Neyman 分 配 时 : 
Dw, VB = EN VB 


= Tas0 (200 x VDZXTB +400x V0.2x0.8 
+750x V0.4X0.6+1500xVO.TxX0.0) 
0.3710 
(Dw Bey 
2 WPiQ 
N 





221.5 


2 206 


n= 


V+ 


2 
2 (0.3710) jo6 


0.1442 
0.000 651 + 人 850 


所 以 , 按 比 例 分 配 和 按 Neyman 分 配 所 需 的 样本 量 分 别 为 206 和 196。 
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$3.5 ”分 层 时 的 若干 问题 


一 ,抽样 效果 分 析 

在 实际 工作 中 ,通常 分 层 抽样 比 简单 随机 抽样 的 精度 要 高 ,也 就 是 说 ,分 层 抽 
样 人 计量 的 方差 比 简单 随机 抽样 的 小 。 由 于 分 层 随 机 抽样 的 精度 与 样本 量 的 分 配 
以 及 各 层 的 方差 有 关 , 因 此 , 层 的 划分 或 样本 量 分 配 不 合理 时 ,可 能 会 使 分 层 随机 
抽样 的 精度 比 简单 随机 柚 样 的 精度 还 要 差 。 当 然 , 这 种 情况 在 理论 上 可 以 构造 出 
来 ,在 实际 工作 中 ,我 们 只 要 不 出 现 不 合理 地 划分 层 或 分 配 样本 量 的 情况 ,就 可 以 
各 免 分 层 随 机 抽样 精度 更 差 的 结果 发 生 。 

对 于 轿 定 样本 量 的 情况 ,如 果 志 相对 于 可 以 忽略 ,出 

Var SE Vorwp SE Vos (3.32) 

式 中 ,Voye，Viop ,Vs 分 别 为 分 层 随机 抽样 最 优 分 配 .分 层 随 机 抽样 按 比 例 分 配 以 
及 简单 随机 抽样 简单 估计 的 方差。 - 

如 果 各 层 均值 差异 越 大 , 则 采用 按 比例 分 配 的 方式 较 好 ,而 当 各 层 的 标准 差 相 
差 很 大 时 , 则 最 优 分 配 更 好 实际 工作 中 ,除非 各 层 的 标准 差 相差 很 大 ,人 们 通常 还 
是 喜欢 采用 按 比例 分 配 的 方式 ,这 主要 是 因为 最 优 分 配 只 是 针对 某 个 指标 (或 变 
量 ) 而 言 的 。 实 际 调查 项 目 中 ,目标 变量 通常 不 止 一 个 ,这 时 ,针对 某 个 变量 的 最 优 
分 配 ,对 其 他 变量 可 能 就 是 很 不 合适 的 ,因此 ,在 调查 多 个 目标 变量 时 , 按 比例 分 配 
的 分 层 抽 样 可 能 更 好 些 。 

对 于 最 优 分 配 ,需要 各 层 标准 差 S, 的 值 ,可 以 用 调查 指标 的 历史 数据 或 通过 
辅助 指标 的 信息 推算 。 也 可 用 与 S; 有 联系 的 一 些 量 ,如 层 内 极 差 等 。 








二 、 层 的 划分 

既然 分 层 抽样 比 简单 随机 抽样 效率 高 ,那么 如 何 构造 层 * 构造 多 少 层 ,才能 使 
分 层 抽样 充分 发 挥 其 效率 高 的 特点 呢 ?这 就 涉及 最 优 分 层 和 确定 层 数 的 问题 。 

(一 } 最 优 分 层 

当 分 层 抽 样 的 使 用 是 为 了 便于 抽样 组 织 、 估 计 子 总 体 的 参数 , 则 分 层 是 按 自然 
层 或 单元 的 类 型 划分 的 。 

有 时 ,分 层 是 为 了 提高 抽样 效率 ,这 时 就 要 考虑 如 何 进行 分 层 。 按 调查 县 标量 
进行 分 层 当然 是 最 好 的 ,但 我 们 在 调查 之 前 并 不 知道 Y; 的 值 ,因此 分 层 只 能 是 
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通过 与 Y, 高 度 相关 的 辅助 指标 X; 来 进行 。 

下 面 介绍 一 种 确定 层 界 的 快速 近似 法 , 它 是 由 戴 伦 纽 斯 (Dalenius) 与 堆 捷 斯 
《Hodges) 提出 的 。 其 做 法 是 将 分 层 变量 (例如 X;) 分 布 的 累积 平方 根 进行 等 分 来 获 
得 最 优 分 层 ,因此 这 种 方法 也 称 为 沦 积 平方 根 法 ,下面 以 一 个 例子 来 说 明 这 种 方法 
的 操作 过 程 。 

【 例 3.6】 菜 地 区 电信 部 门 在 对 利用 电话 上 网 的 居民 家 庭 安 装 ADSL 意愿 进 
行 调查 时 ,以 辖区 内 最 近 三 个 月 有 电话 上 网 支出 的 居民 用 户 为 总 体 ( 上 网 电话 费 为 
0.02 元 /分 钟 ), 并 准备 按 上 网 电话 费 支 出 ( 记 为 x) 进行 分 层 , 试 确定 各 层 的 分 点 。 

表 3.3 前 两 列 给 出 该 市 居民 家 庭 上 网 电话 费 支出 (单位 :元 ) 的 分 布 。 计 算 暴 积 
频数 时 应 注意 ,x 区 间 不 是 等 长 的 ,30 元 以 下 以 5 元 为 间距 ,30 元 ~ 100 元 以 10 元 
为 间距 ,100 元 以 上 以 50 元 为 间距 ,因此 计算 时 ,30 元 以 下 的 按 V 了 累计 ,30 元 一 








100 元 的 按 V27 累计 ,100 元 以 上 的 按 V 107 累计 。 
表 3.3 央 民 过 庭 上 网 电话 费 支出 分 布 

范围 频数 了 累计 /了 
0~5 65 328 255.593 4 255.593 4 
5~10 89 240 298.730 6 554.3241 
i0~15 36 128 190.073 7 744.397 7 
15~20 77 525 278.433 1 1 022.831 
20 一 25 62 407 249.813 9 1 272.645 
25~30 24 591 156.815 2 1 429.46 
30~40 24 586 221.747 6 1651.208 
0~0 9 582 138.434 1 1 789.642 
5 一 名 15 761 177.544 4 1 967.186 
如 一 70 8 099 127.271 4 2 094.457 
70 ~ 中 5676 106.545 8 2 201.003 
80~%0 3453 83.102 35 2 284.106 
加 一 100 4256 92.260 5 2 376.366 
100 ~ 150 1 246 111.6244 2 487.99 
150 ~ 200 800 89.442 72 2 577.433 
200 ~ 250 365 60.415 23 2 637.848 
250 ~ 300 1 0 2 667.848 
300 ~ 350 35 18.708 29 2 686.557 
350 ~ 400 5 7.071 068 2 693.628 
400 ~ 450 12 10.954 45 2 704.582 
> 450 7 8.3666 2712.949 
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最 终 累计 频数 是 2 712.949, 如 果 取 层 数 为 4, 刚 应 每 隔 2 .712-949 = 678.237 分 一 
层 ,因此 分 点 应 该 使 得 累计 V 了 最 接近 678.237,1 35 034.712, 即 较 合理 的 
分 层 是 z 委 15,15< zs 委 30,30<z 扫 70 以 及 > 70( 元 )。 

{ 二 ) 层 数 的 确定 

当 分 层 是 按 自然 层 或 单元 类 型 划分 时 , 层 数 是 自然 的 ,但 当 遇 到 上 述 运 用 累积 
平方 根 法 进行 分 层 时 ,就 存在 确定 层 数 的 问题 。 

在 实际 工作 中 ,因为 要 保证 每 个 层 有 样本 单元 ,因此 层 数 不 能 超过 样本 量 ,如 果 
要 给 出 估计 量 方差 的 无 偏 估计 , 则 每 层 至 少 2 个 样本 单元 ,那么 层 数 不 能 超过 多 。 

通过 对 分 层 抽样 与 简单 随机 抽样 的 比较 ,我 们 知道 前 者 比 后 者 的 精度 高 -因此 
人 们 设想 是 否 对 总 体 尽 可 能 多 地 进行 划分 ,使 得 层 内 差异 降低 ,这 时 就 要 涉及 层 数 
增加 时 估计 量 方差 的 下 降 速度 。 

首先 考虑 以 目标 量 本 身 作为 分 层 指标 。 以 最 简单 的 情形 为 例 , Y; 是 区 间 d 上 


的 均匀 分 布 , 则 总 体 方差 S? = 省 ,样本 量 为 7 的 简单 随机 抽样 简单 估计 量 的 方差 
为 V(3)= 区 .将 总 体 分 成 大 小 相同 的 上 层 ,并 按 比例 分 配 样本 量 , 即 W; = 了 
了 一 下, 则 





L 2 加 
YGo = = 1 袜 权 总 Bi Be 

由 此 可 网, 层 数 的 增 拓 确实 能 提高 估计 精度 。 

但 在 工作 中 , Y; 本 身 未 知 ,只 能 通过 与 Y; 高 度 相关 的 辅助 指标 X; 来 进行 .这 
时 估计 量 的 方差 可 以 分 为 两 部 分 ,一 部 分 与 层 数 有 关 , 另 一 部 分 与 层 数 无 关 , 用 模 
型 表示 即 入 + (1 - 及 2) ,其 中 及 ?是 方差 中 受 层 数 影响 的 部 分 ,1 - R? 是 不 受 层 数 
影响 的 部 分 因此, 当 层 数 增加 到 一 定 的 时 候 , 在 精度 上 的 收益 将 非常 小 ,根据 研 
究 , 除 非 Y 与 X 的 相关 系数 p > 0.95, 层 数 一 般 不 超过 6 为 宜 。 

同时 ,分 层 是 需要 费用 的 ,因此 要 考虑 增加 层 数 提高 的 精度 与 总 费用 之 间 的 平 
衡 ,因为 在 总 费用 一 定 的 条 件 下 ,增加 层 数 必 然 导致 降低 样本 量 , 这 时 就 要 考虑 增 
加 层 数 而 降低 样本 量 在 精度 上 是 否 合算 。 





三 、 事 后 分 层 . 
对 于 分 层 抽样 ,我 们 一 般 在 抽样 之 前 将 总 体 中 的 所 有 单元 分 好 层 ,但 在 实际 工 
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作 中 ,有 时 没有 层 的 抽样 框 ,或 总 体 特别 大 来 不 及 事先 分 层 ,或 者 几 个 变量 都 适合 
于 分 层 , 要 进行 事先 的 交叉 分 层 比较 困难 ,并 且 我 们 并 不 需要 交叉 分 层 后 每 个 子 层 
的 估计 ,如 需要 按 年 龄 分 层 的 结果 ,还 需要 按 受 教育 程度 分 层 的 结果 ,但 并 不 需要 
这 两 个 指标 的 交叉 结果 。 这 时 如 果 想 利用 分 层 抽样 的 优点 ,可 以 采用 对 样本 的 事后 
分 层 方法 。 

要 采用 事后 分 层 技术 ,要求 我 们 可 以 通过 某 种 途径 知道 各 层 的 层 大 小 Nu 或 
层 权 Ws。 

事后 分 房 方法 还 可 以 用 于 y; 值 存在 离 群 值 (特别 大 或 特别 小 ) 的 情况 ,这 时 要 
考虑 将 总 体 的 离 群 单元 分 解 ,进行 事后 分 层 。 例 如 , 某 市 一 个 样本 量 为 100 的 简单 
随机 样本 中 ,有 15 人 最 近 一 年 用 于 购买 彩票 的 支出 在 5 000 元 以 上 ,我 们 感觉 到 这 
部 分 人 抽 多 了 ,对 这 种 极端 情况 的 出 现 ,更 改 或 删除 都 不 太 合适 ,这 时 最 好 构造 “ 激 
进 投资 者 " 事后 层 ,并 确定 总 体 中 这 部 分 人 员 的 真实 比例 ( 即 层 权 ) ,通过 事后 分 层 
对 估计 结果 进行 校正 当然 ,在 实际 工作 中 ,要 得 到 层 权 并 不 容易 ,这 时 要 决定 是 利 
用 近似 房 权 进 行 校正 ,还 是 重新 抽样 。 

如 果 利 用 事后 分 层 提高 估计 精度 ,而 层 权 与 实际 情况 相差 很 大 , 则 事后 分 层 技 
术 不 能 达到 提高 估计 精度 的 目的 ,例如 ,利用 10 年 前 的 全 国企 业 普 查 资 料 , 显然 
Wi 变化 很 大 ,这 时 ,不 能 用 事后 分 层 技术 来 对 估计 进行 校正 。 

使 用 事后 分 层 技术 时 ,还 应 注意 事后 层 不 宜 太 多 。 

最 简单 的 事后 分 层 是 先 抽取 一 个 样本 量 为 的 简单 随机 样本 ,然后 将 样本 按 


某 个 特征 进行 分 层 , 落 到 第 人 层 的 单元 数 为 ma( 六 ww = a ) , 则 用 人 计量 








tL 
= 2 Wm (3.33) 


来 替代 样本 均值 5。 式 中 , 胞 = 革 Ly 


当 鸡 固定 目 都 大 于 夫 的 条 什 下 ， 落 到 各 层 的 样本 可 以 看 成 是 独立 地 从 各 层 中 
抽取 的 简单 随机 样本 。 这 时 ,事后 分 层 估计 量 zs 的 方差 为 : 
工 2G2 tL 
Vw) = > WS - WS (3.34) 
式 中 ,Si = TY 
理论 上 ,只 要 充分 天 ， 事后 分 层 估计 量 ys 是 无 仿 估 计 , 且 它 的 方差 有 如 下 
性 质 : 
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下 [V(3oe)] ~ 一 十 二 — W,)S? 


= Ve + 二 凡 a- Wh) S52 
pr 


(3.35) 


由 上 式 可 以 看 出 ,第 一 项 就 是 按 比 例 分 配 分 层 抽样 估计 量 的 方差 ,第 二 项 表示 


够 大 ,事后 分 层 的 精度 与 按 比 例 分 配 事先 分 层 的 精度 相当 。 








因 事后 分 层 而 非 事 先 按 比例 分 配 分 层 引起 的 方差 增加 量 。 由 此 看 出 ,只 要 样本 量 足 


如 果 样 本 是 按 某 一 个 辅助 指标 分 层 后 抽取 的 , 只 要 这 个 事先 分 层 抽样 是 严格 
按 比例 分 配 进行 的 , 则 这 个 样本 是 自 加 权 的 ,总 体 中 每 个 单元 被 抽 中 的 概率 相同 ， 
我 们 可 以 将 这 个 样本 看 做 简单 随机 样本 ,分别 对 其 他 指标 进行 事后 分 层 估计 。 


【 例 3.7】 某 高 校 欲 了 解 在 校 学 生 用 于 课外 进修 (如 名 种 考证 辅导 班 .外 语 畏 
导 班 等 ) 的 开支 ,在 全 校 8 000 名 学 生 中 抽出 了 一 个 200 人 的 简单 随机 样本 。 根 据 学 














生 科 的 统计 ,本 科 生 人 数 为 全 校 学 生 的 70% ,调查 最 近 一 个 学 期 课外 进修 支出 ( 单 
位 :元 ) 的 结果 如 表 3.4。 
家 3,4 在 校 学 生 课 外 进 休 开 支 调查 结果 
层 (h) 层 权 (Wi) 样本 量 (mx ) 样本 均值 ( 丈 》 | 样本 标准 差 (%》 
本 科 生 0.7 120 253.4 231.00 
研究 生 0.3 80 329.4 367.00 
合 计 1 200 283.8 294.57 

















试 估计 全 校 学 生 用 于 课外 进修 的 平均 开支 。 
解 :全 校 学 生 用 于 课外 进修 的 平均 开支 为 : 


= Dw = 0.7 x 253.4+0.3X 329.4 = 276.2( 元 ) 
< 
人 
2 
v( hpr ) ~!f> Ws + 2 DH 一 同 ) 计 
_1 0 025 





(0.7 x 231? + 0.3 x 3672) 

+ 3 X2312 + 0.7 x 3672) 
= 381.83 

估计 的 标准 差 为 : 
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Sun) s 19.54( 元 ) 
如 果 采 用 简单 估计 , 册 估 计 的 方差 为 ; 
Lh = 10 x 294.57 2 423.01 





vy) = 
估计 的 标准 差 为 : 
s(y) s 20.57( 元 ) 


小 结 


本 章 介绍 了 分 层 抽样 理论 及 若干 相关 问题 。 分 层 抽样 技术 在 实际 中 应 用 非常 
广泛 ,几乎 所 有 的 大 型 抽样 调查 项 目 都 要 用 到 分 层 抽样 技术 ,有 时 与 其 他 抽样 方法 
结合 反复 使 用 。 人 们 之 所 以 喜欢 分 层 抽样 技术 主要 是 因为 便于 项 目的 组 织 与 管理 ， 
同时 ,其 抽样 效率 通常 比 简单 随机 抽样 要 高 。 

与 简单 随机 抽样 相 比 ,分 层 抽样 在 抽样 之 前 需要 对 总 体 抽样 框 进行 分 层 ,这 个 
过 程 有 时 是 现成 的 ,有 时 需要 增加 额外 的 工作 量 , 而 且 有 时 可 能 是 相当 费时 费事 
的 。 在 推算 时 需要 知道 各 层 的 层 权 或 层 的 大 小 。 


本 章 附 录 ”分 层 抽样 估计 量 性 质 的 证 明 


这 里 ,只 给 出 性 质 1.2、3 的 证 明 ,性 质 4、5.6 以 及 性 质 7.8.9 分 别 与 性 质 1.2、 
3 对 应 。 


1. 证 骨 性 质 1: 对 于 一 般 的 分 层 抽样 ,如 果 名 是 了 的 无 偏 信 计 (h = 1,2,…， 
二 ), 则 ,是 了 的 无 偏 估计 。 
证 明 :由 于 对 每 一 层 有 
E(Y,)= 总 
因此 





估计 量 的 方 莽 为 
V(Y,)= v( 立 Wi )= bp Wivt( 名 )+2 六 wwscov( 台 ,名 ) 
由 于 各 层 是 独立 抽取 的 .因此 上 式 第 二 项 中 的 协 方 关 全 为 零 ,从 而 有 
v(Y, ) = Ww iV(Y,) 


2. 证 明 性 质 2: 对 于 分 层 随机 抽样 ,5 是 了 的 无 偏 估计 。 
证 明 : 对 于 分 层 随机 抽样 ,各 层 独立 进行 简单 随机 抽样 ,对 每 一 层 有 





El(3) = Yh 
因此 ,由 性 质 1, 有 
E(y:) = 立 


L 
V(34) = 2 WIV(N) 
由 第 2 章 性 质 2, 得 


V() = 





1 si; 
了 
因此 
VD) = PD WV) = Dm 
3. 证 角 性 质 3: 对 于 分 层 随机 抽样 , V (5) 的 一 个 无 篇 估计 为 ; 
v(Fs) = wv) = = 六 A 3 
证 明 :对 于 分 居 风 机 扫 样 ,各 屋外 立 进行 简单 随机 抽样 ,由 第 2 章 性 区 3 得 


V( 加 ) 的 无 编 估计 为 : 
1 一 fh 
Hp 





of( 丈 ) = 
因此 , V(3) 的 一 个 无 偏 估计 为 : 


v(F) = W3v( 吉 ) = Sm 
4 在 (3.20) 条 件 下 ， 证 明 最 优 分 本 公式 (3 21)。 
证 明 :对 于 分 层 随机 抽样 ,在 线性 费用 函数 条 件 下 , 求 最 优 分 配 等 价 于 在 给 定 
费用 C 时 ,选取 使 方差 V 达到 最 小 ,或 者 在 给 定 方差 V 时 ,选取 zw 使 费用 C 达 
到 最 小 * 这 个 问题 等 价 于 航 小 化 下 式 ， 


LA 
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VC = = (v+ Dsij(c- = 中 本 si 六 om 


式 中 , Y ,C 内 包含 方差 V .费用 C 中 与 样本 量 有 关 的 部 分 
根据 柯 西 - 许 瓦 效 (Cauchy - Schwarz) 不 等 式 : 


(DF) Da (To) 
等 式 成 立 的 条 件 是 当 且 仅 当 对 所 有 , 毕 = 常数 。 取 




















ah = Th = V cn 
于 是 , 当 
Vom _ my 
长 一 常数 
Vm 
也 即 
WS 
n=K /a 
对 所 有 大 成 立时 , VC’ 达到 极 小 。 
对 所 有 求 和 ,有 
局 加 < WhSh 
n= 并 = K2 售 
因此 ,最 优 分 配 为 , 
WS NaSh 
WN Vg 
nw WS ww NS 


5. 证 明 式 (3.32)。 


证 明 :由 最 优 分 配 的 定义 , Yox 委 Vjyop。 因 此 下 面 只 需 证 明 Vpop << Vs,, 即 只 


要 证 明 
Vprop 
成 立即 可 。 
对 总 体 识 差 平方 和 进行 分 解 ， 得 
(N - DS2 = DD -7Y) 


b=1 31 


， 
= Ws <lis: =- 
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= DD CY BD) + DO NCY - YY 
L 
= TN, DS + PNY, -7 
等 式 两 边 同 除 以 N - 1, 若 对 所 有 的 如 商 相对 于 1 可 以 忽略 , 则 有 


Ns ~ 
N-1 RN 








~ Wi 
于 是 
~ 马 TS3 + Wl - 7) 
注意 上 式 中 第 二 项 是 非 负 的 ,因此 
l-fowl-f 1- fy iy yy 
Vw = ~ Dst+ YD Ww- 7) 
| nt 


上 
= Vo + 二 {WY ~ 7 








习 题 


1 某 高 校 欲 了 解 教职员 工 对 某 项 津贴 与 职务 职称 挂钩 的 分 配制 度 改 革 的 态 
度 , 准 备 在 全 校 教职员 工 中 进行 抽样 调查 。 为 了 提高 抽样 效率 ,准备 进行 分 层 抽 样 ， 
请 判断 下 面 的 几 种 分 层 方法 是 否 合适 : 

(1) 按 性 别 分 层 ; 

(2) 按 教师 ,行政 管理 人 员 、 职 工分 层 ; 

(3) 按 职称 (正高 、 副 高 .中 级 .初级 .其 他 ) 分 层 ; 

(4) 按 部 门 (如 系 ,所 ,处 ) 分 层 。 

2. 某 学 院 4 个 专业 的 新 生 举 行 元 旦 晚会 ,组 织 者 为 了 活跃 气氛 ,和 欲 在 200 名 学 
生 中 抽出 10 名 作为 “幸运 星 ", 为 了 以 示 公平 ,要 求 每 位 学 生 被 抽 中 的 概率 相同 ,组 
织 者 知道 利用 简单 随机 抽样 的 方法 可 以 满足 要 求 , 你 能 否 帮助 组 织 者 再 设计 几 种 
方案 ? 

3. 基 居 委 会 辖 有 三 个 居民 新 村 , 居委会 欲 对 居民 购买 彩票 的 情况 进行 调查 。 
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调查 者 考虑 以 新 村 分 层 ,在 每 个 新 村 中 随机 抽取 了 10 个 居民 户 并 调查 每 户 最 近 一 

个 月 购买 彩票 花费 的 金额 (元 ) ,下 表 是 每 个 新 村 及 调查 的 情况 : 

新 ”村 | 居民 户 数 1 2 3 4 5 6 
1 256 10| 10| 2| 0| 20 1w| of 10| 3 20 
2 420 20| 35| 1| 50 0| 4 50 10| 20| 20 
3 168 0| 20| 0| 30| 30| 5 | 0 3 和 | 9 





| 
wm 
2 
SS 






































(1) 试 估计 该 小 区 居民 户 购买 彩票 的 平均 支出 ,并 给 出 估计 的 标准 差 ; 

《2) 当 置 信 度 为 95% ,要 求 相对 误差 不 超过 10% 时 , 按 比 例 分 配 和 Neyman 分 
配 时 样本 量 及 各 层 的 样本 量 分 别 为 多 少 ? 

4. 随 着 经 济 发 展 , 某 市 居民 正在 悄悄 改变 过 年 的 习惯 ,虽然 仍 有 大 多 数 居民 
除夕 夜 在 家 吃 年 夜饭 .看 电视 节目 ,但 也 有 些 家 庭 到 饭店 吃 年 夜饭 ,或 竹 夜 市 ,或 利 
用 过 年 的 假期 到 外 地 旅游 为 研究 这 种 现象 , 某 研究 机 构 以 市 中 心 165 万 居民 户 作 
为 研究 对 象 ,将 居民 户 按 6 个 行政 区 分 层 ,在 每 个 行政 区 随机 抽出 30 户 居民 户 进 
行 了 调查 (各 层 抽样 比 可 以 忽略 ) ,每 个 行政 区 的 情况 以 及 在 家 吃 年 夜饭 ,看 电视 节 
日 的 居民 户 比例 如 下 表 : 


行政 区 (h) 。 居民 户 比例 (W) 在 家 居民 户 (mw) 
1 0.18 27 
2 0.21 28 
3 0.14 27 
4 0.09 26 
5 
6 








0.16 28 
0.22 29 








(1) 试 估计 该 市 居民 在 家 吃 年 夜饭 的 比例 ,并 给 出 估计 的 标准 差 ; 

{2) 当 置 信 度 为 95% ,要 求 绝对 误差 不 超过 1% 时 , 按 比 例 分 配 和 Neyman 分 
配 时 总 样本 量 及 各 层 的 样本 量 分 别 为 多 少 ? 

5. 某 开 发 区 利用 电话 调查 (RDD) 对 区 内 居民 消费 冷冻 食品 情况 进行 调查 ,他 
们 将 电话 号 码 (六 位 数字 ) 的 前 两 位 作为 一 部 分 ,后 四 位 作为 一 部 分 ,前 两 位 代表 
局 号 ,局 号 太 每 个 局 号 中 拥有 的 电话 数 可 以 找到 , 按 局 号 分 层 , 按 每 个 局 号 (剔除 高 
户 后 ) 拥有 的 电话 数 比例 分 配 样本 量 ( 各 层 抽样 比 可 以 忽略 )。 调 查 后 各 层 样 本 户 
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购买 冷冻 食品 支出 的 中 间 结 果 如 下 表 : 


局 二 层 权 (%) 样本 量 样本 平均 (元 ) 样本 标准 差 
1 8.2 16 89 105 








2 6.5 13 56 74 
3 13.7 27 102 186 


7 17.0 34 83 112 
8 9.8 20 $2 73 
9 8.8 18 36 44 














10 7.0 14 52 65 





试 优 计 该 开发 区 居民 户 购买 冷冻 食品 的 平均 支出 ,以 及 估计 的 95% 置信 区 间 。 

6. 某 单位 欲 估计 职工 的 离职 意愿 ,聘请 了 专业 公司 来 进行 调研 ,公司 人 员 按 
高 级 职称 .中 级 职称 和 初级 职称 分 为 三 层 , 已 知 层 权 分 别 为 0.2,0.3,0.5, 预 先 猜 
测 各 雇 的 总 体 比例 为 0.1,0.2,0.4, 如 果 采 用 按 比例 分 配 的 分 层 抽样 ,要求 估计 的 
方差 与 样本 量 为 100 的 简单 随机 样本 相当 , 则 样本 基 应 为 多 少 (不 考虑 有 限 总 体 校 
正 系数 )? 

7. 如 果 一 个 大 的 简单 随机 样本 , 按 类 别 分 为 6 组 ,然后 按照 层 的 实际 大 小 重新 
进行 加 权 ,这 一 过程 称 为 事后 分 层 ,采用 这 种 方法 是 由 于 (判断 以 下 说 法 的 对 错 ); 

《1) 它 能 比 简单 随机 抽样 产生 更 精确 的 结果 ; 

(2) 它 能 比 按 比例 分 配 产生 更 精确 的 结果 ; 

(3) 它 能 比 最 优 分 配 产生 更 精确 的 结果 ; 

(4) 在 抽样 时 不 能 得 到 分 层 变 量 ; 

(5) 它 的 估计 量 的 方差 与 真正 按 比例 分 层 随机 抽样 的 方差 差不多 。 

8. 某 公司 进行 财务 审计 ,需要 对 原始 插 证 进行 审核 ,该 公司 先后 有 两 名 出 纳 ， 
由 A 出 纳 登 记 的 原始 凭证 占 70% ,B 出 纳 登 记 的 原始 凭证 占 30% 。 审 计 人 员 从 原始 
和 凭证 中 随机 抽出 100 份 , 结 果 发 现 ,由 A,B 出 纳 登记 的 原始 凭证 分 别 为 43 份 和 57 
份 ,差错 分 别 为 1 份 和 2 份 。 
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《1) 用 简单 随机 抽样 的 公式 估计 登记 原始 凭证 的 差错 率 ,并 计算 估计 的 标准 
差 ; 

(2) 用 事后 分 层 的 公式 估计 登记 原始 凭证 的 差错 率 ,并 计算 估计 的 标准 差 
(有 限 总 体 校正 系数 1 - 了 = 1)。 
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调查 时 需要 推算 的 目标 量 分 为 总 体 总 量 均值. 比 例 及 比率 前 面 介绍 了 对 总 
体 总 量 、 均 值 以 及 比例 的 简单 估计 ,简单 估计 是 线性 的 。 比 如 对 于 总 体 均值 ,在 简单 
随机 抽样 时 ,用 样本 均值 进行 估计 ;在 分 层 抽样 时 ,用 各 层 样本 均值 的 加 权 平 均 来 
估计 。 对 总 体 比 率 的 估计 不 同 于 前 三 种 目标 量 , 它 需要 用 非 线性 估计 ,这 就 是 本 章 
将 介绍 的 比率 估计 量 。 

在 实际 工作 中 ,如 果 除 了 调查 的 目标 量 以 外 ,还 有 其 他 指标 的 信息 , 称 这 些 指 
标 为 辅助 变量 (auxiliary variable)。 人 们 总 希望 利用 这 些 辅助 变量 与 目标 量 之 间 的 
关系 提高 佑 计 精 度 , 这 时 ,可 以 考虑 利用 本 章 介绍 的 几 种 估计 方法 。 


8$4.1 引 富 


一 、 概 念 与 作用 
(一 ) 概念 “ 
当 调 查 的 目标 重 是 总 体 比率 时 ,所 用 的 估计 量 不 同 于 对 比例 的 估计 。 因 为 前 者 
涉及 总 体 两 个 指标 ,这 两 个 指标 都 需要 通过 样本 进行 估计 ,而 后 者 涉及 的 总 体 大 小 
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是 已 知 的 ,不 需要 估计 .例如 ,在 对 全 国货 物 运输 量 进行 统计 时 ,目标 量 为 全 国 总 货 
运 量 ,总 货物 周转 量 ,由 这 两 个 量 可 以 得 到 货物 的 平均 运输 距离 , 称 为 平均 运 距 。 即 

平均 远 上 = 公信 交加 
由 于 全 国 总 货运 量 ,总 货物 周转 量 都 需要 通过 样本 进行 估计 ,因此 平均 运 距 本 身 是 
一 个 比率 量 又 如 ,家 庭 用 于 教育 的 支出 占 总 支出 的 比重 ,家 庭 教 育 支出 以 及 总 支 
出 都 需要 估计 。 再 如 , 拨 导 上 网 的 网 民 家 庭 中 安装 ISDN 的 比重 。 

对 总 体 进行 调查 时 ,调查 的 指标 往往 是 多 个 ,除了 调查 指标 之 外 ,还 有 其 他 
指标 (辅助 变量 ), 这 时 人 们 考虑 利用 其 他 指标 的 信息 来 提高 调查 指标 估计 的 精 
庆 。 通 常 是 利用 调查 指标 与 辅助 变量 之 间 的 关系 构造 比率 估计 量 或 回归 估计 
量 




















{二} 作用 
在 进行 抽样 调查 时 ,目标 量 本 身 就 是 总 体 比率 ,这 时 ,对 总 体 比 率 的 估计 要 用 
到 本 章 介绍 的 比率 估计 量 。 大 多 数 情 况 下 ,人 们 利用 比率 估计 、 回 归 估计 ,都 是 希望 
利用 总 体 的 辅助 信息 来 提高 估计 的 精度 。 通 常 ,只 要 调查 指标 与 辅助 变量 存在 较 好 
的 正 相关 关系 ,比率 估计 、 回 归 估 计 就 比 简单 估计 好 。 
比率 估计 、 回 归 估计 疗 样 也 可 以 用 于 分 层 随 机 抽样 ,而 且 分 层 比率 估计 、 分 层 
回归 估计 上 比 通常 的 分 层 简 单 估计 要 好 。 





二 、 应 用 条 件 

比率 估计 、 回 归 估计 是 非 线性 估计 ,与 简单 估计 相 比 , 其 优 劣 取决 于 辅助 变量 
的 选择 ,也 就 是 辅助 变量 应 该 与 调查 指标 有 较 好 的 正 相 关 关 系 , 例 如 成 比例 关系 或 
线性 回归 关系 。 

如 果 辅 助 变量 与 调查 指标 具有 较 好 的 负 相关 关系 , 则 要 采用 乘积 估计 。 由 于 实 
际 工作 中 具有 负 相 关 关 系 的 辅助 变量 的 情形 很 少见 ,因此 ,理论 上 给 出 了 薪 积 估计 
的 公式 ,但 实际 案例 很 少见 到 。 

比率 估计 、 回 归 估 计 和 需要 用 到 辅助 变量 的 总 体 均值 ,因此 辅助 变量 的 总 体 总 量 
或 总 体 均值 应 该 是 已 知 的 。 实 际 工作 中 , 如 果 辅 助 变量 的 总 体 总 量 或 总 体 均值 未 
知 ,又 要 利用 比率 估计 或 回归 估计 , 则 可 以 采用 二 重 抽样 方法 , 先 获得 辅助 变量 的 
估计 ,再 对 目标 量 进行 估计 。 

比率 估计 是 有 偏 估计 ,回归 估计 中 如 果 用 样本 回归 系数 时 ,回归 估计 也 是 有 偏 
估计 。 但 当 样 本 量 足 够 大 时 ,估计 的 偏 倚 趋 于 零 , 因 此 ,比率 估计 、 回 归 估计 需要 有 
是 够 的 样本 量 才 能 保证 估计 的 有 效 。 
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三 ,符号 说 明 
设 调查 指标 为 Y; ,辅助 变量 为 X,。 本 章 将 用 到 目标 变量 和 辅助 变量 的 如 下 指 








标 : 
益 体 总 量 :Y = > YX = DX 
Te 
总 体 均值 ;:Y = NY X= NX 
3 > Tl 了 
总 体 方差 : S2 7 YY},S = HI (XX 
Yi 1 
样本 方 六;s3 = 于 半 ( -下 和 = 站 人 一 下 
总 体 协 方差;:S。 = 上.(Y; -7)(X 一 X) 





样本 协 方 差 :vw = 二 DW a) 


总 体 相关 系数 :p = 总 
样本 相关 系数 :6 = 2 


$4.2 ”比率 估计 


一 ,简单 随机 抽样 下 的 比率 估计 

(一 ) 定义 

比率 估计 量 (ratio estimator) 又 称 比 估 计 。 对 于 简单 随机 抽样 ,总 体 均 秆 了 和 
总 体 总 量 Y 的 比率 估计 为 : 





WR = R= 羡 2 (CD 











= Ny (4.2) 
有 时 ,调查 的 目标 量 就 是 总 体 比率 : 





0 





J (4.3) 


六 


六 = 
= 本 (4.4) 


(二 ) 比率 估计 的 性 质 
简单 随机 抽样 比率 估计 是 有 偏 的 .其 偏 傅 的 阶 为 (十), 因 此 当 样本 量 较 
大 时 ,估计 鞭 的 偏 倚 趋 于 零 ,因此 ,比率 估计 是 渐 近 无 偏 的 。 


性 质 1 ”对 于 简单 随机 抽样 比率 估计 , 当 样 本 量 n 较 大 时 ,yr, YR 及 丰 是 渐 近 
无 偏 的 , 即 
E(gr) ~ YE(YR) < YY,E( 恨 ) < 及 (4.5) 


到 ,YR 及 RR 的 方差 为 : 








1 一 YY 
VoD ~ NY RY) 
所 
= Lf(s: + Ras2 -2RS,.) (4.6) 


VID UD ,Rx 





-EA Dgs + RS: -2RSw) (4.7) 
VRS RS- RX)? = lat (Ss + RS -2RS,) 
(4.8) 
v(7) 的 样本 估计 式 为 : 
(Rs + Rs -2 ks) (4.9) 
或 wlR) ~ L(+ R2s2 — 2 Rs,) (4.10) 


式 中 53,S2 ,S, 分 别 为 Y,X 的 总 体 方差 和 总 体 协 方差; 态 , 过 ,sy 分 别 为 Y,X 的 
样 木 方差 和 样本 协 方差 。 
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V (sk) = X2V( 良 ),V(YR) = X2V( 展 ) 可 通过 vi( 良 ) 或 va(R) 估计 、 
【 例 4.1】 对 以 下 假设 总 体 CN = 6) ,用 简单 随机 抽样 抽取 n = 2 的 样本 ( 见 
表 4.1), 比 较 简单 随机 抽样 比率 估计 及 简单 估计 的 性 质 。 












































表 4.1 假设 的 总 体 数据 
i 1 2 3 4 | 5 | 6 | 均值 
xX 0 1 1 3 5 | 8 1 0 4.5 
Y 1 | 3 11 18 | 2 | 46 18 
解 :对 这 个 总 体 ,我 们 列 出 所 有 可 能 的 (3 = 15 个 样本 ,以 比较 简单 估计 和 比 
率 估计 的 性 质 。 

i 样本 简单 估计 (5) 比率 估计 (53) 

1 2 2.0 18 

2 13 6.0 18 

3 i.4 9.5 17.1 

4 1.5 15.0 16.875 

5 1,6 23.5 21.15 

6 2,3 7.0 15.75 

7 2,4 10.5 15.75 

8 2,5 16.0 16 

9 2,6 24.5 20.045 5 

10 3.4 14.5 16.3125 

11 3.5 20.0 16.3636 

12 3,6 28.5 19.7308 

13 4,5 23.5 16.269 2 

14 4,6 32.0 19.2 

15 5,6 37.5 18.75 
由 此 ,可 以 计算 出 ， 

jl 2+6+.+37.5 
下 (7) = 15 和 1 18 
ss 
V3) = 2 ~ (5)] ?~ 97.866 67 
图 
E(yr) = 圳 >sm -18+18 +18.75 、 17.686 44 


Bl3s) = E(yr) — Ya 17.686 44 - 18 =-0.313 56 
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V(R) = 二 [3 yp — E(SR)] 2 2 2.823 45 
MSE (gh) = V (yr) + Bi(3g) ~ 2.823 45 + (~0.313 56)? = 2.921 77 
由 计算 结果 下 以 看 出 ,简单 估计 是 无 偏 的 ,而 比率 估计 是 有 偏 的 .简单 估计 基 
的 方差 远 远大 于 比率 估计 量 的 方差 ,比率 估计 的 偏 倚 不 大 ,其 均 方 误差 也 比 简单 估 
计 的 小 得 多 。 因 此 ,对 这 个 总 体 ,比率 估计 比 简单 估计 的 效率 高 。 
【 例 4.2】 某 县 在 对 船舶 调查 月 完成 的 货运 量 进行 调查 时 ,对 运 管 部 门 登记 
的 船舶 台 账 进行 整理 后 获得 注册 船 船 2 860 艇 ,载重 吨位 154 626 吨 。 从 2 860 艇 船 








船 中 抽取 了 一 个 ” = 10 的 简单 随机 样本 ,调查 得 到 样本 船舶 调查 月 完成 的 货运 量 
及 其 载重 吨位 如 表 4.2( 单 位 : 吨 ) ,要 推算 该 县 船舶 调查 月 完成 的 货运 量 。 
囊 4.2 样本 船舶 货运 量 及 载重 吨位 数据 

2 » Th 1 » 

1 780 100 6 2170 120 

2 1 500 50 7 1 823 150 

3 1 005 50 8 1450 80 

4 376 10 9 158 20 

5 600 20 10 1370 50 


























解 :已 知 :N = 2 860,n = 10,X = 154 626 
由 表 4.2 可 得 


10 1 
lv 


-1 2 i - 
3 = 1602% = 1123.2,7 = 6m = 65 
= i ~ 421 179.07 

= zs 
号 =- 元 )2 2 161.11 


se = CT Ce 5) 7) ~ 23 382.22 
所 
因此 ,对 该 县 船 般 在 调查 月 完成 货运 量 的 比率 估计 为: 


= 2X = 2 x 154 626 = 2 671 937( 吨 ) 


Yr 方差 的 估计 为 : 
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v( Yk) ~ ND + Rs2 -2 Rs )= 2.106 17 x 101 
YY 标准 差 的 估计 为 ; 
s( Yr) -VCza) < 458 930( 吨 ) 
如 果 用 简单 估计 对 货运 量 进行 估计 , 则 
Y= Ny = 2 860 x 1 123.2 = 3 212 352( 吨 ) 
N2(1 — 
Hn 


vw(Y?) = 2 = 3.433 03 x 101 


s{Y) =N v(Y) ~ 585 921( 吨 ) 
由 此 ,得 到 比率 估计 量 设计 效应 的 估计 为 : 


v(Ye) 





deff = 0.6135 
v(Y) 


对 于 本 问题 ,比率 估计 量 的 效率 比 人 简单 估计 量 的 效率 高 ,注意 ,这 里 只 是 作为 
一 个 例子 ,实际 中 对 于 样本 量 较 小 的 情形 ,使 用 比率 估计 量 时 不 能 忽视 其 偏 倚 。 

{三 ) 消除 比率 估计 偏 倚 的 方法 

由 于 比率 估计 是 有 偏 估计 ,在 小 样本 时 ,其 偏 倚 不 能 忽略 ,如 果 这 时 有 很 好 的 
辅助 变量 ,希望 使 用 比率 估计 来 提高 精度 , 则 需要 通过 改善 估计 量 或 改变 抽样 方法 
使 比率 估计 成 为 无 偏 估计 。 

1. 无 偏 的 比率 型 估计 量 。 这 里 主要 介绍 两 种 无 偏 的 比率 型 估计 量 。 

第 一 种 无 偏 的 比率 型 估计 量 是 哈 特 利 - 罗斯 (Hartley - Ross) 估计 量 。 它 从 比 


率 尝 的 平均 值 ? 出 发 ,然后 校正 的 偏 倚 获 得 。 哈 特 利 - 罗斯 估计 量 为 : 

















Rn = 7+ HTN -7 a) (4.11) 
式 中 ， 
i (4.12) 


等 式 右边 第 二 项 是 对 ; 的 偏 伴 E(7) ~ R 的 修正 。 
第 二 种 无 偏 的 比率 型 估计 量 是 米 基 (Mickey) 人 计量 ,与 哈 特 利 - 罗斯 人 计量 
类 似 , 它 也 是 从 比率 的 平均 信 出 发 ,但 这 时 用 家 .，= 卫 : 代 其 上 面 的 六 -这 里 y.，， 
之 ;分 别 表 示 在 个 样本 数据 中 去 掉 第 ; 个 样本 数据 后 剩 下 的 n -1 个 样本 数据 的 
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平均 值 . 记 尺 ,的 平均 值 为 枣 _, 米 基 估计 量 为 : 
Ru = Rt Nt DG R.. z) (4.13) 


【 例 4.3】 对 如 下 一 个 N = 5 的 假设 总 体 ,总 体 比率 为 R = 2。 如 朵 样本 基 
nn = 3, 说 明 哈 特 利 - 罗斯 估计 量 和 米 基 估计 量 的 无 偏 性 ( 见 表 4.3)。 


























表 4.3 假设 的 总 体 数据 
1 1 | 2 3 4 5 平均 值 
YY 2 4 5 9 10 6 
xX, 1 2 3 4 5 3 
解 :将 ”= 3 的 所 有 可 能 样本 列 于 表 4.4, 并 计算 每 个 样本 的 估计 量 (结果 中 只 


列 出 小 数 点 后 三 位 )。 








表 4.4 
样本 y z 良 F Ri R- Rw 
1.2,3 | 3.667 | 2.000 | 1.833 1.889 | 1.844 | 1.850 | 1.830 


1,2.4 5.000 2.333 2.143 2.083 2.139 2.122 2.151 
1.2.5 5.333 2.667 2.000 2.000 2,.000 2.000 2.000 
1.3,4 5.333 2.667 2.000 1.972 2.002 1.983 2.010 
1,3.5 5.667 3.000 1.889 1.889 1.889 1.875 1.900 
1.4.5 7.000 3.333 2.100 2.083 2.106 2.104 2.096 
2,3,4 | 6.000 3.000 ; 2.000 1.972 2.006 1.989 2.009 
2,3,5 6.333 3.333 1.900 1.889 1.904 1.892 1.908 
2.4.5 7.667 3.667 2.091 2.083 2.094 2.093 2.089 


了 34,S 8.000 4.000 2.000 1,972 2.017 1.995 2.006 














平均 值 | 6.000 3.000 1.996 1.983 2.000 1.990 2.000 














从 上 述 计 算 中 ,可 以 看 出 , 尺 是 有 偏 的 ,而 Re 和 Ry 是 无 偏 的 。 
2. 改变 抽样 方法 。 使 比率 估计 成 为 无 偏 估计 的 另 一 种 办 法 是 改变 抽样 方法 。 
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拉 希 里 (Labiri) 证 明 , 只 要 每 个 大 小 为 ”的 样本 被 抽 中 的 概率 与 其 辅助 变量 的 和 
> = 成 比例 , 则 这 时 的 比率 估计 就 是 无 偏 估计 。 


为 获得 满足 这 个 条 件 的 样本 ,最 简单 的 办 法 可 能 是 水 野 (Midzuno) 法 , 即 在 总 
体 中 按 与 X; 成 比例 的 概率 抽取 第 一 个 样本 单元 ,在 次 体 剩 下 的 单元 中 按 简 单 随机 


抽样 抽取 ，- 1 个 样本 单元 ,出 这 , 个 单元 组 成 的 样本 被 抽 中 的 概率 与 x 成 比 
例 。 





二 、 分 层 随 机 抽样 下 的 比率 估计 

对 于 分 层 随机 抽 翌 ,如 果 采 用 比率 估计 量 , 由 于 比率 估计 量 是 有 偏 的 ,只 有 在 
大 样本 的 条 件 下 , 偏 倚 才 趋 于 零 , 因 此 如 果 各 层 的 样本 量 比较 大 , 则 可 以 采用 各 层 
分 别 进行 比率 估计 ,将 各 层 加 权 汇 总 得 到 总 体 指 标的 估计 ,这 种 方式 称 为 分 别 比率 
估计 。 

有 时 各 层 只 是 一 个 小 样本 ,使 用 分 别 比率 估计 可 能 效果 不 好 ,这 时 可 以 采用 联 





合 比率 估计 、 
(一 ) 分 别 比率 估计 
总 体 均值 了 和 总 体 总 量 Y 的 分 别 比率 估计 量 (separate ratio estimator) 为 : 
2 js 
w= Wi = 辣 几 这 和 (4.14) 
pa = 
上 上 了 I 
Ye = Ne = 2 Fo = 2) Ye (4.15) 
k=1 Ch =1 


式 中 ,Wi 为 层 权 ; 为 层 数 ; 台 和 分 别 为 Y 和 Xs 的 简单 估计 ;gs 和 Ye 分 别 
为 和 Y 的 比率 估计 。 

如 果 每 一 层 的 样本 量 mw 较 大 , 则 每 一 层 的 比率 估计 是 近似 无 偏 的 ,因此 这 时 
分 层 随 机 抽样 分 别 比率 估计 量 也 是 近似 无 偏 的 ,并 且 由 每 一 层 比率 估计 量 的 方差 
得 到 分 别 比 率 估计 重 的 方差 : 


vy ~ WE- A) 
(yp ) 之 


(Sa + RES — 2R,prS nS ) (4.16) 


EA fa) ,2 
V(YR) ~ ~ (Ss, + RES ~ 2RipsS Sw) (4.17) 
-lL 


式 中 ,万 = 总 153 ,Sa ,my 分 别 为 第 层 指 林 Y,X 的 方差 及 其 相关 系数 。 
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分 别 比率 估计 量 要 求 每 一 层 的 样本 量 都 比较 大 ,如 果 达 不 到 这 个 要 求 , 则 它 的 
偏 倚 可 能 比较 大 ,这 时 使 用 联合 比率 估计 量 可 能 更 好 些 。 


{二 ) 联合 比率 估计 

总 体 均值 了 和 总 体 总 量 Y 的 联合 比率 估计 量 (combined ratio estimator) 为 : 
a = 六 = RR (4.18) 
Ye = EX = RX (4.19) 


式 中 ,Fs 和 zf 分 别 为 了 和 XX 的 分 层 估计 。 
分 层 随 机 抽样 联合 比率 估计 量 是 有 偏 的 ,但 当 总 样本 重 ” 较 大 时 ,估计 基 的 偏 
傅 趋 于 零 , 因 此 ,联合 比率 估计 量 是 渐 近 无 偏 的 。 即 


E(gr)~ Y,E(YR) ~ Y (4.20) 
外，YR 的 均 方 误差 为 ; 
MSE (5r:) ~ V (Bh) > ss, + R2S3 — 2RS, ) 
(4.21) 


MSE( YR ) a V(YR) ~ >) 0 YO- (ss + R2S2 — 2RS, ) 
4 


(4.22) 
将 各 指标 的 样本 估计 代入 就 可 得 到 均 方 误差 的 样本 估计 。 

{三 } 分 别 比率 估计 量 与 联合 比率 估计 量 的 比较 

如 果 每 一 层 都 满足 比率 估计 量 有 效 的 条 件 , 则 除非 Re = 尺 , 都 有 分 别 比率 估 
计量 的 方差 小 于 联合 比率 估计 量 的 方差 。 但 当 每 层 的 样本 量 不 太 大 时 ,还 是 采用 联 
合 比 率 估计 量 更 可 靠 些 ,因为 这 时 分 别 比率 估计 量 的 偏 倚 很 大 ,从 而 使 总 的 均 方 误 
差 增 大 。 

实际 使 用 时 ,如 果 各 层 的 样本 量 都 较 大 , 旦 有 理由 认为 各 层 的 比率 R; 差异 较 
大 , 则 分 别 比率 估计 优 于 联合 比率 估计 。 当 各 层 的 样本 量 不 大 ,或 各 层 比率 R; 差异 
很 小 , 则 联合 比率 估计 更 好 些 。 

【 例 4.4】 某 市 1996 年 对 950 家 港口 生产 单位 完成 的 吞吐 量 进行 了 调查 ， 
1997 年 欲 对 全 市 港口 生产 单位 完成 的 吞吐 量 进行 抽样 调查 对 港口 生产 单位 按 非 
国有 (A = 1) 和 国有 (h = 2) 分 为 两 层 ,单位 数 分 别 为 800 家 和 150 家 ,分 别 在 两 层 
中 调查 了 10 家、15 家 港口 生产 单位 ,调查 数据 如 表 4.5, 试 估计 1997 年 全 市 港口 生 
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产 单位 完成 的 奉 吐 量 。 






































表 4.5 1997 年 非 国有 和 国有 企业 调查 数据 
EE Ba i ED 多 
上 95 80 1 495 530 
2 220 210 2 210 320 
3 359 384 3 360 496 
4 120 117 4 230 400 
5 177 180 5 600 651 
6 253 258 6 1000 880 
7 302 349 7 700 560 
8 332 286 8 1100 1230 
9 272 215 9 720 823 
10 137 9 10 310 390 
1 478 465 
12 817 650 
13 919 1 160 
14 1 160 1070 
_ | 15 735 698 
解 :将 上 述 数据 计算 的 中 间 结 果 列 于 表 4.6。 
表 4.6 
请 三 1, 非 国有 上 二 2, 国 有 合 计 
mm 10 15 25 
N, 800 150 950 
Wi 0.842 105 0.157 895 1 
记 0.0125 0.1 
RR 171 400 102 900 274 300 
马 214.25 686 
EE 226.7 655.6 
于 217.6 688.2 
3 8 477.344 94 665.26 
10 704.71 82 541.89 
So 9 072.2 81071.51 
局 0.959 859 1.049 725 
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1. 按 分 别 比率 估计 量 估计 。 
Ys = 六 RX, = 0.959 859 x 171 400 + 1.049 725 x 102 900 
全 入 536.5 
v(Yrs) = > MQ- f(s 3 + Ras2 — 2 Besson ) 


Ee nk 


= 69 461 324.15 + 22 477 628.53 = 91 938 952.68 


s(Yrs) =N u( Yks) = 9 588.48 
2. 按 联 合 比率 估计 量 估 计 。 
Y, = DNs = = 800 x 217.6 + 150 x 688.2 = 277 310 


文 = > Na = 800 x 226.7 + 150 x 655.6 = 279 700 


Ys _ 277 310 
= 名 强 x274 300 = 271 956.1 





Ni{l 人 本 
2 


= 66 261 436.65 + 20 032 262.19 = 86 293 698.84 


s( Yrc) Nv Yc) = 9 289.44 


三 、 比 率 估计 的 效率 


(一 ) 与 简单 估计 的 比较 
对 于 简单 随机 抽样 ,简单 估计 量 是 无 偏 的 ,而 比率 估计 量 是 渐 近 无 偏 的 ,因此 
这 里 只 比较 当 比较 大 的 情形 .为 了 比较 简单 估计 和 比率 估计 的 优 劣 ,可 通过 比较 
它们 的 均 方 误差 或 方差 大 小 来 进行 。 
由 上 面 的 讨论 ,我 们 知道 : 
V7) = Ls (4.23) 


V (gn) ~ Lo f(s + R253 ~ 2RSy) 
= 1 人 (33 + R2S3 ~ 2R0S,S,) (4.24) 
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由 此 可 以 看 出 ,比率 估计 重 优 于 简单 估计 量 的 条 件 是 
R2S2 一 2RoS,S.<0 
整理 后 ,得 到 当 


1 


p> 二 (4.25) 


Sob 


有 Vlg) < V3) 
特别 当 C, ~ C, 时 ,p > 到, 比率 估计 量 就 优 于 简单 估计 量 。 

(二 ) 比率 估计 成 为 最 优 线性 估计 的 条 件 

当 总 体 满足 下 面 两 个 条 件 时 , 则 比率 估计 是 最 优 线性 估计 :(1) 与 x 的 关系 
是 过 原点 的 直线 ;(2)y 对 这 条 直线 的 方差 与 zx 成 比例 。 


$4.3 ”回归 估计 


类 似 比率 估计 量 ,如 果 除了 调查 指标 (Y) 之 外 ,还 有 其 他 指标 (X) 可 利用 ,X 
称 为 辅助 变量 , Y 与 X 有 较 好 的 相关 关系 , 且 Y 对 X 的 回归 线 不 通过 原点 , 则 可 利 
用 调查 指标 与 辅助 变量 之 间 的 相关 关系 来 提高 估计 的 精度 ,但 是 X 的 总 体 总 量 或 
总 体 均值 应 该 是 已 知 的 。 


一 、 回 归 估计 的 定义 
对 于 简单 随机 抽样 , 总 体 均值 了 和 总 体 总 量 Y 的 回归 估计 量 (regression 
estimatior) 的 定义 式 为 : 
Dr = D+BX-T)= 5- (FX) (4.26) 
Y= No (4.27) 
式 中 ,3,z 为 样本 均值 ;8 为 事先 设 定 的 一 个 常数 ,也 可 以 由 样本 决定 ,例如 样本 回 


如 果 B = 0, 则 回归 估计 量 就 是 简单 估计 量 ; 如 果 8 = 于, 则 回归 估计 量 就 是 比 
率 估计 量 。 
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二 、 为 常数 的 情况 

当 回归 系数 8 为 事先 给 定 的 常数 时 ,或 以 前 为 相同 目的 进行 的 调查 所 得 到 的 
Y; 对 X 的 样本 回归 系数 8 稳定 在 某 个 数值 上 , 取 最 近 一 次 调查 所 得 的 作为 设 定 
值 。 

性 质 2 ”对 于 简单 随机 抽样 同 归 估 计量 ,作为 及 Y 的 回归 估计 , 忒 , 及 者 
是 无 偏 的 。 即 








FE(y)=Y 

E(Y,) = E(Ny,)= 了 (4.28) 
如 和 次, 的 方差 为 ; 

Vn) = 二 (全 + RS? ~ 2p05,) (4.29) 

2(1 一 

VC = SDs? + Rss ~ 28,5,) (4.30) 
V(r) 和 V(Yw) 的 样本 估计 为 : 

v9) = -45 + 所 -2posy ) (4.31) 

sf- SD DP (+ Be 2p0s) (4.32) 


式 中 ,S3, 52 ,Su 分 别 为 Y， 义 的 总 体 方差 和 总 体 协 方差 ;号 ,到 ,sx 分 别 为 Y,X 的 
样本 方差 和 样本 协 方差 。 


当 名 取 总 体 回归 系数 
s > - ¥)(X; -又 ) 
B= = OQ (4.33) 
* 3- X)? 


时 ， V3) 达到 最 小 , 妈 
va = si- Ps9) = 
式 中 ,p 为 与 X 总 体 相关 系数 。 


1- 
7 fsz(1 -2p°) (4.34) 








三 .为 样本 回归 系数 的 情况 
如 果 8 需 要 通过 样本 来 确定 ,很 自然 地 ,我 们 会 想到 用 总 体 问 归 系数 的 最 小 二 
买 估计 ,也 就 是 样本 回归 系数 : 


Vy -Hr, -7) 


= 守 =- 二 (4.35) 
和 PN -7) 
这 时 简单 随机 抽样 回归 估计 量 
Fr = y+OX— x) (4.36) 


是 有 偏 的 ,但 当 样 本 量 n 充分 大 时 ,估计 量 的 偏 倚 趋 于 零 . 因 此 ,类 似 比 率 估计 量 ， 
回归 估计 量 也 是 渐 近 无 偏 的 , 且 


MSE(T,) ~ V(3n) ~ {S21 -由 (4.37) 
MSE{ 纹 ) 和 V(3) 的 一 个 近似 估计 为 : 
人 (4.38) 


式 中 ,= 也 一 下 一 6(zi 一 无)] 2 





= 上 Soy pe = 7)]= EY -0282) (4.39) 
[ 例 4. 5]( 线 例 4 2) 利用 回归 储量 扒 外 该 且 船 和 调查 月 完成 的 货运 量 。 
解 :根据 例 4.2 中 的 计算 结果 可 得 样本 回归 系数 : 


5 = 二 - 23 382.22 
吧 ”2161.11 








= 10.8195 
从 而 

Wh =3+6(R-E) =1123.2+10.8195x ( 汐 
因此 ,该 县 船舶 调 他 月 完成 的 货运 量 的 回归 估 讨 为 : 

Y= Ny = 2860x1004.89 = 2 873 982( 吨 ) 

为 了 估计 区 的 方差 ， 先 半 算 加 站 下 基因 : 
= (0)= 1 
= 189 218.52 





-65)= 1004.89 








10 二 3x (421 179.07—10.819 5: x2 161.11) 
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于 是 和 方差 的 估计 为 ， 


2) = NUL-DDss -2860p x (十 -2650)> 189 218.52 





= 工 . 5 32 x 101 
名 标准 差 的 估计 为 : 


s(Y,) = vb) = = 392 724( 吨 》 
与 例 4.2 的 结果 比较 ,对 于 本 问题 ,回归 估计 优 于 比率 估计 ,而 比率 估计 又 优 
于 简单 估计 。 回 归 估 计 优 于 比率 估计 的 原因 是 回归 直线 没有 通过 原点 需要 注意 的 
是 ,为 了 说 明 问题 ,本 例 样 本 量 不 大 ,在 实际 工作 中 ,对 于 样本 量 较 小 的 情形 , 必须 
考虑 比率 估计 及 回归 估计 的 偏 倚 。 
对 于 简单 随机 抽样 ,为 了 比较 上 述 比率 估计 量 .回归 估计 量 及 简单 估计 量 的 优 
劣 ,可 通过 比较 它们 的 均 方 误差 或 方差 大 小 来 进行 。 简 单 估计 量 是 无 偏 的 ,而 比率 
全 计量 和 回归 估计 量 是 淅 近 无 偏 的 ,因此 这 里 只 比较 当 比较 大 的 情形 时 ,估计 量 
的 方差 大 小 。 
由 上 面 的 讨论 ,我 们 知道 : 
vO) = fs; 
n 
V(sR) A A S2 + R2S2 — 2RS,.) 


l/s2(1 - p) 














V(r) ~ 
由 此 可 以 看 出 : 
1. 回归 估计 量 总 是 优 于 简单 估计 重 , 除 非 p = 0, 即 
V(r) VN) (4.40) 
2. 比率 估计 量 优 于 简单 估计 量 的 条 件 是 





(4.41) 


六 


一 
rolxlm 
号 


村 

Vv 
已 
Be 


这 时 ,比率 估计 量 优 于 简单 估计 量 。 
3. 回归 估计 量 优 于 比率 估计 量 的 条 件 是 
-p53 < R?S+ -2RoS,S。 (4.42) 
也 就 是 
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{RS, - pS 0 (4.43) 
或 者 说 

(B- R)=0 (4.44) 
因此 ,除了 有 = R 的 情况 之 外 ,回归 优 计 量 总 是 优 于 比率 佑 计量, 只 有 当 y 与 x; 的 
关系 式 为 遂 过 原点 的 -… 条 直线 时 , 才 有 B = R 成 立 。 


四 、 分 层 随机 抽样 下 的 回归 估计 

与 比率 估计 类 似 ,分 层 随机 抽样 时 ,如 果 采 用 回归 估计 , 贴 当 各 层 样 本 量 不 小 
时 ,可 先 在 各 层 辐 归 佑 计 , 然 后 将 各 层 汇总 ,得 到 总 体 指 标的 估计 ,这 种 方式 称 为 分 
别 问 归 估计。 如 打 各 层 样 本 量 不 大 , 则 也 可 采用 联合 回归 估计 。 

(一 ) 分 别 回 归 估计 

对 于 分 层 随 机 抽样 , 总 体 均值 Y 和 总 体 总 量 Y 的 分 别 回 归 估计 量 (separate 


regression estimator) 为 : 








, L 
= 2 Why = 2 Wi[ 雹 + 羽 ( 和 0 一 五 )] (4.45) 
L 
Ys = Nm = DNs [+ BR — 7)] (4.46) 
各 
当 各 层 的 回归 系数 为 事先 给 定 的 常数 时 ,分 别 回归 估计 量 是 无 偏 的 ,其 方差 
为 : . 
2 一 
vOm = DA (ss + 95 -28Sm) (4.47) 
7 
并 且 当 
& -有 =- 漠 人 = 12，…, 工 (4.48) 
时 , V《5;) 达到 最 小 , 即 
Vain( yrs) = 妃 fe, (1 -ph) (4.49) 


通常 所 未 知 ， 可 以 用 样本 回归 系数 成 作为 及 的 估计 ; 


Yo 一 玉 )(xh 一 去) 
二 一 一 (4.50) 
3 (zn ~ Zh) 
这 时 ， 分 别 回归 估计 量 是 有 偏 的 ， 但 当 每 一 层 的 样本 量 mx 都 较 大 时 ,估计 的 偏 倚 可 
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以 忽略 ,其 方差 近似 为 : 


va 六 /sy - pi) (4.51) 
方差 va ) 的 样 不信 计 为 : 
v0) = 办 (4.52) 


式 中 ,ss = ppb [C3 —)- br zh)] 2 
分 别 回 归 估 计量 要 求 每 一 层 的 祥 本 量 都 较 大 ,如 果 这 个 条 件 得 不 到 满足 , 则 分 
别 回 归 估 计量 的 偏 傅 可 能 很 大 ,这 时 ,采用 联合 回归 估计 重 更 好 些 。 
{二 ) 联合 回归 估计 
对 于 分 层 随 机 抽样 ,总 体 均值 了 和 总 体 总 量 Y 的 联合 回归 估计 量 (combined 
regression estimator) 为 ; 
Bie = H+ BX ze) {4.53) 


Vi = Nyre = Yo + BCX — Xs) (4.54) 
式 中 ,ys 和 zs 分 别 为 了 和 X 的 分 层 估计 。 
对 于 分 层 随机 抽样 联合 回归 估计 量 , 当 回 归 系 数 为 事先 给 定 的 常数 时 ,作为 


立 及 Y 的 回归 估计 ,xc 及 立 - 都 是 无 偏 的 yue 和 Ye 的 方差 为 : 





2 一 
Vw) = 5 Ms f(s% + ps% ~ 2p5,) (4.55) 
. 
VY) = MO 们 fi) (82 + ps3 -2854) (4.56) 
> 
并 及 ,只 要 有 取 
六 Wi(l— fo)s 
Ee Th 
B= {4.57) 


" , Wl- A)Ss 
之 用 元 Ea 
时 ,V (ye) 达到 最 小 。 

当 回 归 系 数 未 知 时 , 取 8 为 B. 的 祥 本 估计 : 





SW -万 ) 


) Sn" Wi(l = fo} 
Tm ml Do Bm Dt 


，- - 
Md De 


之 元 二 首 











《4.58) 
这 时 联合 回归 估计 是 有 偏 的 ,但 当 桩 本 量 x 较 大 时 ,估计 量 的 偏 伴 趋 于 零 ,回归 信 
计 是 渐 近 无 偏 的 . 且 


Vm ~ 》 (ss, + B2S2 ~ 2B.Sy) (4.59) 
方差 Ver) 的 样本 估计 为， 
v (se) = 之 Wi £3 入 + b2SE — 26) (4.60) 


(三 } 分 别 回归 估计 与 联合 回归 估计 的 比较 

当 回 归 系 数 事先 设 定 时 ,分 别 回归 估计 优 于 联合 回归 估计 ,尤其 在 各 晨 回 妇 系 
数 相差 较 大 时 ,分别 回 归 估 计 更 好 。 

当 回 妇 系数 由 桩 本 估计 时 ,如 果 各 层 的 样本 晤 不 太 小 , 且 各 层 的 回归 系数 相差 
较 大 ,还 是 采用 分 别 回归 估计 为 宜 。 若 各 层 的 样本 量 不 太 大 , 且 各 层 的 回归 系数 大 
致 相同 , 则 采用 联合 回归 佑 计较 好 。 若 层 内 的 回 妇 系数 差别 不 是 太 大 ,而 每 层 的 祥 
梧 虽 并 非 都 相当 大 时 ,联合 回归 估计 可 能 更 保险 些 。 

【 例 4.6j( 续 例 4.4》 利用 回归 巾 计 量 估计 该 市 港口 生产 单位 1997 年 完成 的 
在 叶 量 。 

解 :样本 回归 系数 ， 





= 1, 非 国有 二 = 2, 国 有 
名 1.070 17 0.856 402 














根据 例 4.3 中 的 计算 中 间 结 果 , 则 
(1) 按 分 别 回 归 估计 量 估计 : 
2 2 

Y= 2 Ne = My + bh( Xs — zh)] 

= 163 421.10 + 107 135.19 = 270 556.30 

(os) = > ;BH - A 和 


= = 09 522.4 + 19 062 946.81 = 89 872 469.22 


(5 一) 
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5 Ma) = 9 480.11 





(2) 按 联合 回归 估计 量 估计 : 
2 WH(l - fi) 
2 
- 到 756.5757 _ 
= 所 Wi p), 7 735.2535 = 1.0290 
~ Sh 
pe Hn 


Yo = Yo + PX-X) 
= 277 310 + 1.029 x (274 300 ~ 279 700) = 271 753.4 


Yr Ni A) 
一 
有 I 


v(Ym) = (53 + B22s — 2bsvn) 


= 63 849 916.5 + 21 508 415.67 = 85 358 332.17 


s{ Yc) = os) = 9 238.96 
§4.4 差 值 估计 


如 果 调 查 时 所 用 的 辅助 变量 为 目标 量 最 近 的 普查 结果 ,或 者 回归 估计 的 回归 
系数 接近 于 1, 这 时 可 以 采用 差 值 估计 。 
对 于 简单 随机 抽样 ,总体 均值 的 差 值 估 计量 (difference estimator) 为 : 
台 二 多 + 及 一 区 
=XX+(y-x)=X+d (4.61) 
式 中 ,4 = 了 一 下 = 工 > (yw ~ xi) 


na 


性 质 3 作为 8 = 1 的 回归 估计 重 , 克 是 了 的 无 估计 ,其 方 头 为 : 
VGN) = LAS? + 8 -28,,) (4.62) 
将 S23,S2，S, 的 样本 估计 值 代 人 上 式 ,就 可 得 到 V( 殉 ) 的 样本 估计 。 
[ 例 4.7]( 续 例 4.4) ”利用 差 值 估计 量 估 计 该 市 港口 生产 单位 1997 年 完成 的 
天 吐 量 ,并 比较 估计 量 及 其 精度 。 
解 :由 于 辅助 变量 是 上 年 的 普查 资料 , 且 样 本 回归 系数 接近 于 1, 因 此 可 以 采 
用 差 值 估计 。 


2 
P= DN +t = Yr +- 





= 277 310 1274 300 -279 700 = 271 910 





) 2 
人 (55 + sh — 2s) 


= 65 579 831.11 + 20 336 554.29 = 85 916 385.4 


s(Yy) = v(Y,) = 9269.11 
最 后 ,为 比较 本 例 所 用 的 五 种 估计 是, 将 估计 量 、 估 计量 标准 差 的 估计 、 估 计量 
的 变异 系数 列 于 表 4.7。 








表 4.7 
估计 方法 总 量 佑 计 标准 差 估计 估计 最 的 变异 系数 
分 别 比率 估计 量 | 272 536.6 9 588.48 | 0.035 182 
联合 比率 佑 计量 271 956.1 9 289.44 0.034 158 
分 别 回归 估计 基 270 556.3 9 480.11 0.035 039 
联合 回归 个 计量 271 753.4 9 238.96 | 0.033 998 
差 值 估计 271 910.0 9 269.11 0.034 089 














对 于 本 例 ,从 数值 上 看 ,五 种 估计 量 的 精度 非常 接近 ,回归 估计 量 比 相 应 的 比 
率 估计 量 的 标准 差 要 小 ,联合 回归 估计 量 的 标准 差 最 小 ,但 通常 用 样本 同 归 系 数 的 
器 归 估计 量 的 偏 倚 比 比率 估计 量 的 大 , 且 本 问题 样本 量 较 小 ,因此 从 MSE 的 角度 ， 
同 归 估 计 熏 未 必 是 最 好 的 ,由 于 差 值 估计 量 是 无 偏 的 , 匡 其 标准 差 与 比率 估计 量 、 
归 估 计量 相当 ,因此 对 本 问题 , 差 值 估计 景 是 最 优 的。 

对 于 简单 随机 抽样 ,简单 估计 、 差 值 估计 是 无 偏 的 ,比率 估计 、 回 归 估计 是 渐 近 
无 偏 的 。 当 样本 量 较 小 时 ,不 能 忽略 比率 估计 及 回归 估计 的 偏 倚 , 而 在 小 样本 时 , 回 
归 信 计 的 偏 倚 可 能 比比 率 佑 计 的 大 ,因此 ,从 均 方 误差 的 意义 来 看 ,这 时 回归 估计 
并 不 一 定 比比 率 估计 好 。 

当 辅 助 变量 为 调查 指 怀 的 最 近 的 普查 值 时 ,可 以 考虑 使 用 差 值 估 计 , 尽 管 差 什 
信 计 的 方差 可 能 比 回归 合计 要 大 ,但 由 于 它 是 无 偏 估 计 , 所 以 ,总 的 均 方 误差 可 能 
比 回归 估计 的 小 。 














回 





小 结 


本 章 介绍 了 简单 随机 抽样 比率 估计 量 、 回 归 估 计量 及 其 性 质 ,比率 估计 量 除 了 
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用 于 对 总 体 比率 量 进 : 
比率 估计 
与 简单 随机 
比率 估计 基 、 
于 简单 随机 


- 量 和 回 
样 简单 

















主要 是 利用 辅助 变量 提高 估计 效率 。 


行 估计 外 ,在 实际 工作 中 ,人 们 使 用 比率 估计 量 和 回归 估计 量 











归 估 计量 是 有 编 的 ,但 当 样 本 晤 足够 大 时 ， 
估计 量 相 比 ,只 要 辅助 变量 与 调查 指标 相关 尾 


偏 倚 可 以 忽略 。 
E 较 好 ,就 能 保证 





回归 估计 量 比 简单 估计 量 有 效 。 比 率 估计 量 、 回 归 估 计量 不 仅 可 以 用 
样 , 也 本 

使 用 比率 估计 量 、 
量 或 总 体 均 值 ,如 果 辅 


以 用 于 分 层 随 机 抽样 。 
辐 归 估计 量 以 提高 估计 精度 时 要 求 已 知 辅助 变量 的 总 体 总 
助 变量 的 总 体 总 量 或 总 体 均值 未 知 , 则 要 采用 二 重 抽 样 ,以 






































解决 辅助 信息 不 足 的 问题 。 
本 章 附 录 ”比率 估计 量 、 回 归 估计 量 性 质 的 证 明 
1. 证 明 比 率 估计 的 偏 倚 。 
证 明 :(1) 比率 估计 的 近似 偏 倚 。 
RR-R- 卫 -R- 邢 永 
其 中 
1 1 四 王 一 久 1 
Rr) 人 法 ) 
对 其 用 泰勒 级 数 公式 展开 ,得 到 
1 zT- XY! 1 天 一 区 /i- XY 
和 0) -这 | 区) -] 
11 zx-X 
一斑 
~ 二 | 
因此 
3- 区 |， z-X) -Re (y- Rr)(z-X) 
由 于 El5- Ri)=Y-RX=0 


因而 偏 们 的 主要 项 来 自 于 等 式 右边 的 第 二 项 .由 
EL ~ 3)]= EL(y— Ys -3)]= 二 


二 
nn 


FE[z(z ~- X)]= E(z ~- X)?= 





因此 , 偏 倚 的 主要 项 为 

E(R- ~ Ey(z — XR) + REz(z -XR)] 
= ek RS? - pS,S.) 
(2) 比率 估计 的 精确 偏 倚 。 

考虑 尺 和 z 的 协 方 其， 





Cov(x,R) = BE 人 (22]- ECR)EGE) = 7 -XE(R) 
加 
因此 
E(R) = 六 - TCov(z,R) =R- 去 Covtz, 忆 ) 
从 而 


E(R)- R=- Con(z,R) 
2. 证 明 比 率 估计 的 近似 方差 。 
证 明 : 因 为 Yk ,wn 与 R 只 差 一 个 常数 ,这 里 只 给 出 对 恨 近似 方差 的 证 明 。 
R-R=2-R= 谍 
当 足够 大 时 ,z 中 ,将 其 代入 上 式 分 母 ,得 
y— Ri 


R-R~—= 
X 


Ni 





于 是 


B(R-R)~EIE() -RE(z)]= {(Y¥Y-R.X)=0 


1 
亏 
因此 , 当 足够 大 时 ,已 ( 良 ) 2 尺 。 这 时 

VOR) ~ MSE(R) = F(R ~ RY ~ BE(S - REY 
注意 到 了 - Rz 是 d; = y,- Rz; 的 样本 均值 ,日 的 总 体 均值 万 = 了 RX = 0， 
内 此 
11-f 
芭 
11-f 1 11-f 


| 
= 二 re D?= 一 2 
RR NI Ni RX) 





四 1 一 
V(R) ~ siE(d7 = 
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为 估计 VCRR), 用 
= Roy 


信 计 坟 上 沁 (Y, - RXi)?。 这 个 合计 也 是 有 偏 的 ,但 当 ”足够 大 时 ,估计 的 信人 
趋 于 零 -因此 V( 良 ) 的 估计 为 











oa(R) = 而 sb -Rey 
= 如 村 1 一 2 Ry; + Rez?) 
= 3 — 2 Rs + R2s2) 
对 V( 民 ) 的 估计 式 中 ,也 可 以 用 代替 多 ,得 到 V (让 ) 另 一 种 估计 式 ， 
wR) = -f(s — 2 Rs + R2s2) 





NT 
3. 证 明 8 为 常数 时 回归 估计 的 性 质 。 
证 明 : 记 8 = Po, 下 面 给 出 对 总 体 均值 的 回归 估计 量 的 性 质 的 证 明 。 这 时 
Dr = 7- Polz— RX) 
因此 
E(yn) = E(3) -BLE(z) -XI=Y 
为 求 允 的 方差 ,可 以 将 丈 看 做 - Bo(z; - 立 ) 的 样本 均值 ,因此 由 简单 随机 
抽样 简单 估计 量 的 方差 公式 ,可 以 得 到 








上 一 必 四 二 
Vn) -LIS LY m3) 7]? 
lf 1 vy _¥)- 一 有 过)] 2 
= Nil Y)- BX, ~ X)] 


1- 
= (SS + B52 -20Sy) 


将 Bo 看 做 变量 ,由 aZ? + 过 + c 当 Z = - 元 且 e >0 时 达到 极 小 值 ,这 里 
a = S3 > 0, 因 此 当 


B= Sy 
2 2S2 S52 





时 YG0) 站 人 
Vanow) = 器 }= 与 10 -由 


由 于 ss3,sw 是 S23,S2, Sy 的 无 偏 估 计 , 将 它们 代入 上 式 , 即 可 得 V( 坟 ) 的 
无 偏 估计 : 


n Ss-3 











oh) = s+ 2p0s) 
4. 证 明 大 样本 时 ,比较 三 种 佑 计量 优 劣 的 条 件 。 
证 明 :大 样本 时 ,有 
1 
vG) = 1/s; 
n 
Vlga) ~! -fs + R2S3 — 2RS,) 
7 
VG ~ 二 LS- 的 


由 于 放声 1, 因 此 , 除 p = 0 以 外 ,总 有 
Vg) SE V5) 
比率 估计 量 优 于 简单 估计 量 的 条 件 是 
S32 > 52 + R?S? ~ 2RS,. 
即 2RSy > R2S2 
于 是 有 





> 
V 
SI 
| 
SN 
请 


回归 估计 量 优 于 比率 估 讨 量 的 条 件 是 
S21 — p< 5? + RS -2RS,. 
这 等 价 于 
{p5, - RS.) >0 
即 (B- R)Y20 
因此 , 除 8 = R 的 情况 之 外 ,回归 估计 量 总 是 优 于 比率 估计 景 。 
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习题 


1. 从 一 个 总 体 中 抽出 一 个 简单 随机 样本 ,对 样本 中 每 个 单元 测量 了 > 和 x 的 
值 ,车 z+ 的 总 体 均 值 X 已 知 ,在 下 面 的 方法 中 .你 选择 那 一 各 方法 侍 计 ?并 说 明 你 


的 理由 。(1) 总 是 用 之 ;(2) 有 有 时 用 之 ,有 时 用 立 ;(3) 总 是 用 三 。 
Xx x I ky 


2, 对 茶 十字 路 口 车 流量 进行 观测 , 试 判 断 如 下 一 些 车 的 类 埠 。 


(1) 一 莉 内 通过 路 口 的 车 辆 数 ; 

(2) 一 周 内 通过 路 口 的 小 轿车 的 比例 ; 
(3) 路 口 每 秒 通过 的 车 辆 数 ， 

(4) 车 辆 在 路 口 的 平均 等 待 时 间 ; 


《5) 本 地 车 牌照 尾数 为 奇数 和 偶数 的 车 辆 通过 数 之 比 。 


并 请 你 举例 说 明 你 知道 的 总 体 各 种 类 型 的 量 。 


3. 找 一 本 英汉 词典 ,可 以 从 前 言 找 到 该 词典 收录 的 词 条 数 ,从 目录 可 以 查 出 
正文 的 页 数 , 以 正文 的 每 一 页 作为 抽样 单元 ,利用 随机 数 表 , 在 正文 中 随机 抽取 





2 = 530 页 ,记录 被 抽 中 页 中 你 认识 的 单词 数 以 及 该 页 包括 的 单词 





数 ,试用 适当 的 


估计 方法 估计 你 的 英语 词汇 量 ,给 出 估计 的 精度 ,并 说 明 你 选择 估计 方法 的 理由 。 
如 果 要 求 在 95% 置信 度 下 ,估计 的 相对 误差 不 超过 10% , 则 应 该 抽取 多 少 页 ? 

4. 某 市 欲 估计 居民 用 于 购买 书 报 杂 志 的 支出 占 总 收入 的 比重 ,在 全 体 居 民 户 
中 随机 抽出 20 户 居民 ,调查 了 样本 居民 户 最 近 一 年 的 购买 书 报 杂志 的 支出 y;( 元 ) 





及 家 庭 总 收入 x;( 百 元 ) ,结果 如 下 : 





























昌 EE 了 Ea 于 
1 550 300 1 150 242 
2 370 291 12 350 265 
3 200 289 13 230 254 
4 120 223 14 250 245 
5 160 201 15 480 305 
6 320 317 16 390 303 
7 290 279 17 210 267 
8 70 180 18 380 277 
9 0 189 19 230 227 
10 110 203 20 420 271 














试 合计 该 市 居民 家 庭 每 占 元 年 收入 用 于 购买 书 报 杂志 的 支出 ,并 计算 估计 景 的 标 
5. 某 公司 欲 了 解 广告 对 其 产品 销售 旦 的 作用 ,从 销售 该 公司 产品 的 452 家 企 
业 中 抽 选 了 20 家 ,分 别 调查 了 广告 前 与 广告 后 的 月 销售 基数 据 , 如 下 表 。 


























样本 企业 | ”广告 前 | 广告 后 | 样本 企业 肯 前 广告 后 
1 208 3 [Ti 599 626 
2 400 48 | 2 510 538 
3 0 | 2 | 9 828 888 
4 1 3 | 27 14 473 510 
5 351 363 | 15 924 998 
6 880 92 | 1 110 1 
7 273 294 17 S29 S89 
8 487 | sl ly ) 237 ;2605 
9 | 4193 | 195 19 388 419 
10 | 83 1 87 20 | 24 | 257 

{1) 车 广告 前 的 月 总 销售 量 为 216 256, 分 别 用 比率 估计 量 和 同 归 估 计量 估计 


广告 后 的 月 总 销售 量 及 其 标准 差 ; 

(2) 求 广告 后 比 广告 前 销售 量 增加 百分比 95% 的 置信 区 间 ; 

(3) 车 允许 估计 总 销售 生 的 绝对 误差 为 A = 3 800 ,置信 和 度 为 95% ,确定 应 抽 
多 少 样本 企业 。 























6. 对 于 如 下 表 样本 ,如 果 X 已 知 , 准 备 采 用 比率 知 计量 对 了 进行 估计 ,你 选择 
娜 个 X 作为 辅助 变量 ? 

0 2 NE y i | re 3 y 
i 57 ri al isi an 50 2| PT m2 
2 5 1 0 1| 12 8 3 | 了 8 
3 10 2 0 1 | 6 2 21 497 | 36 
4 9 6| 2w| 2301 1 20 3 30 15 
5 15 3 ol ol 7 5 0 18 
6 15 5 30 26 i16 23 5| 4 7 
7 5 2 5 6 17 14 4 70 | 35 
8 22 4 | 330 10 | 18 12 6 | 物 10 
9 1 18 5| 2 31 7 2 15 1 
10 | 26 | 7 0 20 1 6 2 1 2 





























7. 下 列 数据 是 N = 6, 两 层 单元 数 相同 的 人 为 总 体 。 











第 一 层 第 二 层 
zh a za | 
3 0 8 6 
5 3 1 9 
10 6 25 15 





对 mi = x2 = 2 的 一 个 分 层 随机 样本 : 


(1) 列 出 所 有 可 
(2) 用 分 别 比 率 





E 的 样本 ; 
千 计 和 联合 比率 估 


(3) 对 上 述 结果 进行 比较 分 析 。 
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fF 估计 ,计算 估计 的 偏 倚 及 MSE ; 











第 5 章 


ee 


不 等 概 抽样 














RE 

















前 面 学 习 的 是 等 概率 抽样 方法 , 即 每 个 单元 人 样 的 概率 相等 。 与 此 相对 应 的 另 
一 类 方法 是 不 等 概 抽样 ,也 即 每 个 单元 人 样 的 概率 不 相等 。 

本 章 其 分 三 节 , 第 一 节 介绍 不 等 概 抽样 的 概念 ,第 二 节 介绍 与 单元 大 小 成 比例 
的 放 男 的 不 等 概 抽样 (PPS 抽样 ), 第 三 节 介 绍 与 单元 大 小 成 比例 的 不 放 回 不 等 概 
抽样 (xPS 抽样 )。 


不 


$5.1 引 


一 ,概念 与 特点 

前 面 所 学 的 简单 随机 抽样 ,总 体 中 的 每 个 单元 具有 同样 的 人 样 概率 , 它 是 等 概 
率 抽样 ,在 分 层 随机 抽样 时 , 层 内 单元 是 按 简 单 随机 抽样 抽取 的 ,因此 , 层 内 也 是 等 
概率 抽样 。 等 概率 抽样 的 特点 是 总 体 中 每 个 单元 地 位 相同 ,在 抽样 时 对 每 个 单元 采 
取 “ 不 偏 不 倚 ” 的 态度 。 

与 等 概率 抽样 对 应 的 另 一 类 方法 是 不 等 概 抽样 ,也 就 是 在 抽样 前 赋予 总 体 每 
个 单元 一 个 人 样 概率 ,当然 这 个 人 样 概率 是 不 相同 的 , 否则 抽样 就 成 为 等 概率 的 
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抽样 。 

当 总 体 单元 之 问 差 异 不 大 时 ,简单 随机 抽样 是 简便 的 有效 的 ,例如 ,对 家 庭 消 
费 支 出 的 调查 中 ,以 家 庭 为 抽样 单元 , 由 于 家 庭 之 问 的 差异 不 是 很 大 ,因此 用 简单 
随机 抽样 是 有 效 的 。 

当 总 体 单元 之 问 差 异 非常 大 时 ,简单 随机 抽样 效果 并 不 好 。 例 如 ,对 船舶 运输 
基 进 行 调查 时 ,以 船舶 为 抽样 单元 . 则 有 的 是 从 事 远 详 运输 的 万 吨 巨 轮 , 更 多 的 是 
从 事 内 河 河 网 地 区 运输 的 上 再 吨 乃 至 儿 十 吨 小 船 ,这 时 ,简单 随机 抽样 的 效果 肯定 
不 好 ,又 姐 , 对 某 市 商业 销售 额 进行 调查 时 ,以 高 场 为 抽样 单元 , 则 少数 商场 是 大 型 
或 特大 型 的 ,而 多 数 是 中 小 离 店 ,这 时 ,简单 随机 抽样 黎 业 也 不 好 。 对 于 这 两 种 情 
况 , 人 们 自然 会 想到 ,将 大 船 ( 大 型 商 场 ) 和 小 船 { 小 商店 ) 局 等 对 待 并 不 合理 ,因为 
大 船 (大 型 离 场 ) 数量 虽然 不 多 ,但 占 总 运输 量 (销售 额 ) 的 份额 较 大 ;另外 ,由 于 规 
模 和 管理 水 平 的 原因 ,往往 大 船 (大 型 商场 ) 的 调查 比较 容易 ,可 以 做 得 细 敏 一些 ， 
而 小 船 (小 商店 ) 的 调查 往往 比较 困难 ,也 没有 必要 对 占 市 场 份额 不 大 的 这 部 分 单 
元 化 太 大 的 精力 做 过 多 的 调查 ,因此 在 调查 时 , 大船 ( 大 型 商场 ) 应 该 处 于 更 重要 
的 地 位 。 

出 现 总 体 单元 差异 特别 大 的 情况 时 ,通常 是 牺牲 “简单 ”来 提高 抽样 效率 ,一 
种 做 法 是 将 总 体 单元 按 规 模 ( 大 小 ) 分 层 , 对 较 大 单元 的 层 抽样 比 定 得 高 些 ,抽样 
比 甚至 可 以 是 100% ,而 较 小 单元 的 层 抽样 比 定 得 低 一 些 。 另 一 种 做 法 就 是 赋予 每 
个 单元 与 其 规模 (或 辅助 变量 ) 成 比例 的 人 样 概率 ,这 样 一 来 ,大 单元 人 样 概率 大 ， 
小 单元 信 样 概率 小 。 

不 等 概 抽样 时 ,总 体 中 某 类 单元 比 其 他 单元 出 现在 样本 中 的 机 会 大 ,这 给 人 一 
种 感觉 ,这 部 分 单元 对 推算 的 影响 大 ,使 得 推算 偏向 于 某 一 方 。 例 如 ,大 商场 抽 得 多 
了 ,会 不 会 使 得 推算 的 销售 额 偏 大 ,但 事实 上 , 某 些 单元 入 样 概 率 较 大 ,推算 时 , 则 
赋予 其 一 个 较 小 的 权 ; 反 之 ,入 样 概率 较 小 ,推算 时 , 则 赋予 其 一 个 较 大 的 权 , 从 而 
使 推算 结果 仍然 是 公平 的 。 

实际 工作 中 ,如果 遇 到 下 面 几 种 情况 , 则 可 以 考虑 使 用 不 等 概 抽样 。 

1. 抽样 单元 在 总 体 中 所 占 的 地 位 不 一 致 。 例 如 上 面 讨论 的 船舶 、 商 场 等 调查 
问题 。 

2. 调查 的 总 体 单元 与 抽样 总 体 的 单元 不 一 致 。 例 如 某 大 型 单位 准备 对 职工 家 
庭 情况 进行 调查 ,一 种 自然 的 办 法 是 以 人 事 部 门 的 职工 花 名 册 作 为 抽样 框 进行 抽 
样 。 该 单位 有 少数 家 庭 两 名 职工 在 该 单位 工作 ,如 果 对 职工 进行 简单 随机 抽样 , 则 
双 职 工 家 庭 被 抽 中 的 概率 大 ,而 调查 者 希望 对 家 庭 进行 等 概率 抽样 .除了 对 抽样 框 
进行 整理 ,将 双 职 工 家 庭 中 的 一 名 成 员 从 抽样 框 中 拿 掉 以 外 ,可 以 对 职工 采用 不 等 
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概 抽 样 ,一 种 做 法 是 对 每 台 职 工 记录 其 家 庭 成 员 在 该 单位 工作 的 人 数 ,然后 对 每 各 


职工 按 与 人 数 成 反比 的 概率 进行 抽样 。 








3. 改善 估计 景 。 不 等 概 抽样 可 用 于 对 佑 计量 进行 改善 ,例如 简单 随机 
举 估 计 昌 是 渐进 无 仿 的 ,要 使 它 成 为 无 偏 估计 ,只 要 每 个 大 小 为 ”的 样本 被 


样 比 








中 的 


概率 与 其 辅助 变量 的 和 入 zz 成 比例 (如 水 野 法 ), 则 这 时 的 比率 估计 量 就 是 无 偏 


估计 量 ， 而 这 个 样本 并 不 是 简单 随机 样本 ， 而 是 一 个 不 等 概 抽样 获得 的 样本 。 





不 等 概 抽样 除了 应 用 于 上 述 几 种 情况 外 ,还 广泛 应 用 于 整 群 抽样 .多 阶 
中 群 或 初级 单元 大 小 相 产 较 大 的 情形 。 





段 抽样 


不 等 概 抽 样 的 优点 主要 是 大 大 提高 估计 精度 ,减少 抽样 误差 ,但 使 用 它 也 有 条 
件 , 就 是 必须 要 有 说 明 每 个 单元 规模 大 小 的 辅助 变量 来 确定 每 个 单元 人 样 的 概率 ， 
这 在 抽样 及 推算 时 都 是 必须 的 。 有 时 ,对 应 于 每 个 单元 的 辅助 变量 的 获得 比较 容易 
或 方便 ,例如 ,管理 部 门 在 车 船 登记 台 账 中 ,车 船 名 及 其 载重 吨位 是 同时 登记 的 ,以 
载重 吨位 作为 辅助 变量 时 ,抽样 框 的 编制 几乎 与 简单 随机 抽样 一 样 方便 但 对 有 些 
问题 要 复杂 一 些 , 例 如 将 某 县 的 农田 划分 成 地 块 后 ,以 地 块 的 面积 作为 辅助 变量 ， 
虽 这 时 除了 对 地 块 进行 编号 ,还 要 对 地 块 的 面积 进行 丈量 ,因此 , 同 简单 随机 抽样 





























相 比 ,不 等 概 抽样 编制 抽样 框 的 过 程 有 时 要 复杂 一 些 。 


二 ,不 等 概 抽样 的 种 类 


布 鲁 尔 (Brewer) 和 哈尼 夫 (Hanif) 在 《不 等 概率 抽样 (1983) 中 列举 了 50 多 种 
不 等 概 抽样 方法 ,但 常用 的 大 约 10 种 。 对 不 等 概 抽样 的 分 类 可 以 有 多 种 原则 ,可 以 





按 样 本 单元 是 否 放 回 分 为 放 回 不 等 概 抽样 和 不 放 回 不 等 概 抽样 。 
{ 一 ) 放 回 不 等 概 抽样 


每 次 在 总 体 中 对 每 个 单元 按 信 样 概率 进行 抽样 ,抽取 出 来 的 样本 单元 放 回 总 
体 , 然 后 进行 下 一 次 抽样 ,这 样 的 话 ,每 次 抽样 过 程 都 是 从 同一 个 总 体 独立 进行 的 。 





放 回 不 等 概 抽 样 实 施 及 推算 过 程 相对 来 说 比 不 放 回 的 简单 。 
(二 ) 不 放 回 不 等 概 抽样 


每 次 在 总 体 中 对 每 个 单元 按 信 样 概 率 进 行 抽样 ,抽取 出 来 的 样本 单元 不 再 放 
回 总 体 ,对 总 体 中 剩 下 的 单元 进行 下 一 次 抽样 ,不 放 回 不 等 概 抽样 的 效率 比 放 回 时 


的 效率 高 ,但 是 不 放 回 不 等 概 抽样 的 实施 及 推算 过 程 比 放 回 时 复杂 得 多 。 
对 于 不 放 回 不 等 概 抽样 ,样本 的 抽取 可 以 有 以 下 几 种 方法 。 








1. 逐个 抽取 法 。 每 次 从 总 体 未 被 抽 中 的 单元 中 以 一 定 的 概率 抽取 一 个 样本 单 





元 ,通常 这 个 概率 与 已 被 抽 中 的 样本 单元 有 关 。 
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2. 重 抽 法 。 以 一 定 的 概率 逐个 进行 放 回 抽样 ,如 果 抽 到 重复 单 郊 , 则 放 痉 所 有 
抽 到 的 样本 单元 ,重新 抽取 ,直至 抽 到 规定 的 样本 量 且 所 有 样本 单元 不 重复 。 














是 否 人 样 。 这 种 方 








3. 全 样本 抽取 法 。 对 总 体 每 个 单元 分 别 按 一 定 概率 决定 











法 的 样本 量 是 随机 的 ,事先 不 能 确定 ,而 且 它 可 能 出 现 总 体 中 全 体 单元 都 人 样 成 全 


都 未 人 样 。 


4. 系统 抽样 法 .将 总 体 单元 按 某 种 顺序 排列 ,将 规定 的 人 样 概率 汇总 ,根据 样 
本 量 确定 抽样 间距 & ,在 1 ~ 产生 一 个 随机 数 ,并 确定 相应 的 初始 单元 ,以 后 在 总 





体 中 每 隔 & 个 单元 抽出 一 个 作为 样本 单元 。 


三 ,区域 抽样 














区 域 抽样 (area sampling) 也 称 为 面积 抽样 .这 种 方法 主要 用 于 以 下 的 情形 :区 
域 或 面积 本 身 就 是 抽样 单元 ,或 者 抽样 单元 的 名 单 抽样 框 无 法 获得 ,但 每 个 抽样 单 
元 只 素 属 于 某 个 区 域 。 例 如 , 某 县 进行 小 麦 产量 调查 时 ,将 全 县 农田 土地 按 易于 划 
分 的 规则 划分 成 地 块 (如 利用 沟 垄 .水 炬 、 道 路 等 地 理 特征 自然 隔离) ,然后 对 地 块 
进行 抽样 ,对 被 抽 中 地 块 的 小 麦 产量 进行 实 割 实测 ,从 而 推算 全 县 的 产量 。 由 于 地 








块 的 面积 通常 不 相等 ,因此 对 地 块 的 抽样 可 以 是 简单 随机 抽样 ， 
积 进行 不 等 概 抽样 








也 可 以 按 地 块 的 面 


为 此 ,需要 对 抽样 框 类 型 进行 讨论 。 抽 样 框 可 以 分 为 名 单 抽样 框 和 区 域 抽样 


框 。 








名 单 抽样 框 由 抽样 单元 的 名 单 组 成 。 例 如 , 某 高 校 全 体 在 校 学 生 的 花 名 贡 就 是 
一 个 名 单 抽样 框 。 又 如 ,在 工商 管理 部 门 登记 的 企业 名 册 也 是 一 个 名 单 抽样 框 。 

区 域 抽样 框 由 定义 明确 的 区 域 组 成 ,而 一 个 区 域 是 由 个 体 组 成 的 .例如 ,我 们 
对 居民 家 庭 进行 某 项 调查 时 ,可 以 利用 地 图 编制 各 行政 区 的 名 单 ,或 到 街道 办 事 处 
获得 启 委 会 的 名 单 ,这 时 的 行政 区 及 居委会 都 是 由 个 体 (居民 户 ) 组 成 的 区 域 。 又 


























如 将 农田 土地 划分 成 地 块 。 


对 于 区 域 我 们 可 以 直接 进行 抽样 ,这 时 的 抽样 单元 就 是 区 域 本 身 , 例 如 对 地 块 


的 抽样 。 





大 多 数 情况 下 ,抽样 单元 是 区 域内 的 个 体 , 这 时 有 两 种 选择 , 即 对 区 域内 的 所 


有 单元 进行 调查 ,或 者 对 区 域内 的 单元 再 抽样 ,它们 分 别 是 后 面 将 要 介绍 的 整 群 





样 和 多 阶段 抽样 。 


一 般 来 说 ,抽样 调查 的 总 体 比较 大 ,要 编制 全 体 抽样 单元 的 名 单 往往 很 困难 ， 


而 且 也 没有 必要 。 这 时 比较 容易 的 做 法 是 通过 对 区 域 的 划分 ,对 








后 对 被 抽 中 的 区 域 进行 调查 ,或 者 再 编制 下 一 阶段 的 抽样 框 .如 果 有 必要 .这 个 
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LE 立 区 域 抽 样 框 , 然 














样 框 也 可 以 是 区 域 抽样 棋 。 

例如 ,对 北京 市 中 学 生 的 某 项 调查 ,没有 必要 将 全 体 在 校生 的 名 单 痢 拿 米 ,可 
以 对 学 校 进行 抽样 ,对 被 抽 中 的 学 校 ,可 以 直接 利用 学 生 处 的 学 生 名 单 进行 抽样 ， 
但 对 于 较 大 的 学 校 吕 能 还 是 不 方便 ,因此 可 以 抽 学 生 班级 并 对 被 抽 中 班级 的 全 体 
学 生 进 行 调查 或 对 班级 中 的 学 生 再 抽样 。 

区 域 抽样 栏 丰 以 下 主要 优点 : 

《1) 容易 定义 和 识别 区 域 抽 样 桥 很 容易 通过 地 图 或 行政 区 划 加 以 定义 ,而 月 
能 很 清楚 地 识别 。 

(2) 比较 稳定 ,区 域 相对 来 说 比较 稳定 。 例 如 ,我 们 调查 -个 居民 楼 中 的 所 有 
导 氏 户 , 比 利用 居民 户 名 单 抽样 框 要 容易 得 多 ,因为 前 者 是 稳定 的 ,而 后 者 可 能 在 
调 但 的 时 候 已 经 搬迁 , 

(3) 容易 操作 ,回答 率 较 高 。 现 场 工作 人 员 能 很 容易 并 清楚 地 识别 和 确定 区 域 
的 界限 ,从 而 比较 容易 地 找到 样本 单元 ,使 回答 率 提高 。 





$5.2 放 回 不 等 概 抽样 


一 ,PPS 抽样 
(一 ) 多 项 抽样 与 PPS 抽样 


设 Z1,Z,…,Zv 是 一 组 宏 率 , SZ = 1. 按 这 组 概率 对 总 体 中 的 N 个 单元 进 
行 放 回 抽样 ,每 次 机 中 第 ; 个 单元 的 概率 为 2;, 独 立地 进行 这 样 的 抽样 4 次 , 则 这 





种 不 等 概 抽样 为 多 项 抽样 。 
特别 地 ,如 果 每 个 单元 有 说 明 其 大 小 或 规模 的 度量 Mi , 则 Zi 可 取 
,= 1 
~ ym ® 


这 时 ,每 个 单元 在 每 次 抽 选 中 人 样 的 概率 与 其 单元 规模 的 大 小 成 比例 ,因而 多 项 抽 
样 称 为 放 回 的 与 单元 规模 大 小 成 比例 的 概率 抽样 (sampling with probability 
proportional to size) ,简称 PPS 抽样 。 

由 于 抽样 是 放 回 的 ,因此 , 某 个 单元 可 能 在 样本 中 出 现 多 次 ,出 现 这 种 情况 时 ， 
对 这 个 单元 的 调查 只 进行 一 次 ,但 计算 时 按 抽 中 几 次 计算 几 次 的 原则 进行 。 

{ 二 ) 实施 方法 

不 等 概 抽样 的 实施 有 两 种 方法 :代码 法 与 拉 希 里 (Lahiri) 法 。 





1 代码 法 。 在 PPS 抽样 中 ,赋予 每 个 单元 与 Mi 人民 等 的 代 公 数 ,将 代码 数 红 加 
得 到 Mo ,每 次 抽样 都 产生 一 个 L1. Mo] 之 间 的 随机 数 , 设 为 六, 则 代码 wz 所 对 应 
的 单元 被 抽 中 。 

如 来 M, 不 是 整数 , 划 乘 以 某 个 倍数 。 对 于 一 般 的 多 项 抽样 ,通常 可 以 找到 革 
个 Mo ,使 MoZ 为 整数 ,每 个 单元 赋予 与 MoZ 相等 的 代码 数 , 然 后 进行 抽样 。 

【 例 5.1】 设 茶 个 总 体 有 NN = 10 个 单元 ,相应 的 单元 大 小 M, 及 其 代码 数 如 
表 5.1, 我 们 要 在 其 中 产生 一 个 xn = 3 的 样本 。 


























表 5.1 利用 代码 进行 PPS 抽样 

i RM Mx10 累计 M; x 10 代码 
有 6 6 1~6 

2 | 14.5 145 151 7~151 
3 1.5 15 166 152 ~ 166 
4 13.7 137 303 167 ~ 303 
5 7.8 78 381 304 - 381 
6 15 150 531 382 ~ 53 
7 10 100 631 532 ~ 631 
8 3.6 36 667 632 ~ 667 
9 6 60 727 668 ~ 727 
10 Lt 11 738 728 ~ 738 
pa Mo = 73.8 738 一 一 

先 在 [1,738] 中 产生 第 一 个 随机 数 为 354, 再 在 [1,738] 中 产生 第 二 个 随机 数 为 


553, 最 后 在 [1,738] 中 产生 第 三 个 随机 数 为 493, 则 它们 所 对 应 的 第 5,7,6 号 单元 
被 抽 中 。 
2. 拉 希 里 法 。 令 M ”= maX fmil , 即 所 有 M; 中 最 大 值 ,每 次 抽样 都 分 别 产生 
一 个 [LN] 之 问 的 随机 数 i 及 [1,AM*] 之 间 的 随机 数 x ,如果 M; 衬 mm, 则 第 i 个 
单元 被 拍 中 ;否则 , 重 抽 一 组 (i, m )。 
在 例 5.1 中 ,M*= 150,N = 10。 在 [1,10] 和 [1,150] 中 分 别 产 生 (i, m): 
(3,121) ,M3 = 15 < m = 121, 会 弃 , 重 抽 ; 
(8,50), Ms = 36 < m = 50, 会 弃 , 重 抽 ; 
(7,77),AM7 = 100 守 m= 77, 第 7 号 单元 人 样 ; 
100 














(5,127) ,Ms = 78 < mm = 127, 舍 痉 . 重 质 : 
《4.77) ,M4 = 137 之 加 = 77, 第 + 号 单元 人 样 ; 
(9.60) ,Mo = 60 之 m = 60, 第 9 号 单元 人 样 。 
因此 ,第 4,7,9 号 单元 被 抽 中 。 
当 样本 量 N 很 大 时 ,采用 拉 希 里 法 不 用 列 出 如 表 5,1 那样 的 表 , 在 这 点 上 ,此 
法 有 便捷 之 处 。 


二 、 汉 森 - 赫 维 茨 估计 量 
对 于 放 回 不 等 概 抽 样 , 对 总 体 总 量 Y 的 估计 是 汉 森 - 赫 维 蒋 (Hansen - 
Hurwitz) 估计 ， 


Mo 
Yan = 四 > zm; (5.2) 
py 的 方差 为 : 
~ 2 
V( Yn) = lz(¥-Y) (5.3) 
= i 


V(Ypn) 的 无 偏 估计 为 : 





2 2 前 人 2 
v= 

{5.4) 

[ 例 5.2】 某 部 门 要 了 解 所属 8 500 家 生产 企业 当月 完成 的 利润 ,该 部 门 手头 

已 有 一 份 上 年 各 企业 完成 产量 的 报告 ,将 其 汇总 得 到 所 属 企业 上 年 完成 的 产量 为 

3 676 万 吨 。 考 虑 到 时 间 紧 ,准备 采用 抽样 调查 来 推算 当月 完成 的 利润 。 根 据 经 验 ， 

企业 的 产量 和 利润 相关 性 比较 强 , 且 企 业 的 特点 是 规模 和 管理 水 平 差异 比较 大 , 通 

常 大 企业 的 管理 水 平 较 高 ,因此 采用 与 上 年 产量 成 比例 的 PPS 抽 样 ,从 所 属 企业 中 
抽出 一 个 样本 量 为 30 的 样本 ,调查 结果 如 表 5.2。 











表 5.2 样本 单元 的 有 关 数 据 
; | mi NW 了 人 mm, Ea | i 7 出 
1 38.23 | 10926 10 6.50 1900 | 19 1.50 10 
2 13.70 1024 11 15.00 864 1 20 8.00 80 
3 0.75 13 12 7.0 地 | 28.42 13 672 
4 2.85 30 13 16.00 1045 ‖ 22” 9.01 3 845 






























































ma | 多 mm 局 i me, 多 
| 22002923 20123| ol 80 
6 5.00 6 | 1s 386| 460 | 24 | 6.00 311 
7 | 0 20 1 8 | 2370 1 25 | 28.4 | 9284 
8 | 2.00 430 | 17 9.00 940 | 26 | 9.97 842 
9 | Sg | 92 | | ao 610 | 27 | 6.2% sl0 





* 该 样 术 单 志波 抽 中 丙 次 ; 加 ,为 企业 上 年 完 砧 的 产 申 { 单 位 ; 方 吨 )， 为 企业 当月 完成 的 科 润 ( 单 
信 : 自 才 】 

要 根据 以 上 调查 结果 估计 该 部 门 所 属 企业 当月 完成 的 利润 ,并 给 出 95% 置信 
度 下 佑 计 的 相对 误差 ,如果 要 求 在 相同 条 件 下 相对 误差 达到 20% ,所 需 的 样本 量 
应 该 是 多 少 ? 














解 :由 上 述 条 件 知 
n = 30,Mo = 3 676 
估计 当月 完成 的 利润 
Y 2 My 
_3676110926 10926 ,1024 .S10\ 二 
0 + 9)~757 087( 百 元 ) 
Yi 方差 及 标准 差 的 估计 : 
> MM vy Yny 
?Ya = ja DD: 人 -Mo ) 
3 .676 [机 926 _ 757 9) 2 (! 024 _ 757 087\? 
30x295L\38.23 — 3 676 13.70 3 676 ) 
.1510 757 087 人 
人 (让 3676 ) ] 
~ 3.676 


Er 67 306.428 6 
Rs 30 317 005 145.8 


s( Yrm) = vl Ym) x 174 118( 百 元 ) 
在 置 信 度 为 95% 时 ,对 应 的 : = 1.96, Yig 的 相对 误差 
1 Ym) 


Yr 


174 118 


= 1.96 x 757087 





45% 


ro 
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办 此 ,在 和 舞 信 和 度 仍 为 95% ,相对 误差 | = 20% 时 ,所 需 样 本 给 
0.45 


2 
= 人) x 30 = 152 


$5.3 ”不 放 回 不 等 概 抽样 


一 .xPS 抽样 

(一 } 不 放 回 不 等 概 抽样 

对 于 放 回 抽样 ,对 总 体 参 数 的 估计 及 其 方差 估计 比较 简单 ,但 样本 单元 中 可 能 
有 单元 被 抽 中 多 次 。 直 观 上 看 ,没有 必 归 对 同一 个 单元 调查 多 次 , 因此 放 回 抽样 得 
到 的 样本 代表 性 比 不 放 回 抽 样 差 。 类 似 于 对 简单 随机 抽样 的 讨论 ,在 同样 样本 量 的 
条 件 下 , 放 回 抽样 的 估计 精度 较 低 , 尤 其 当 抽 样 / 比 不 能 忽略 时 。 称 不 放 回 的 与 单 
元 大 小 成 比例 的 概率 抽样 为 rPS 抽样 ， 

(二) 包含 概率 

在 不 放 回 不 等 概 抽 样 中 ,每 个 单元 人 样 的 概率 x, 及 任意 两 个 单元 同时 人 样 的 
概率 x, 统称 为 包含 概率 。 

对 同 定 的 4, 包含 概率 满足 : 


、 
了 {5.5) 


2 = (aa — Dx (5.6) 


Ds = a (5.7) 
tb, 如 果 每 个 单元 信 样 概率 与 大 小 或 规模 的 度量 M; 严格 成 比例 , 记 
= 总 ， 则 对 于 固定 的 x ,有 
Ti 一 2 (5.8) 
这 时 ,我 们 简称 这 种 情形 的 抽样 为 严格 的 xPS 抽样 。 
疗 格 的 xPS 抽样 实施 起 来 非常 复杂 ,xy 不 易 求 得 , 因此 方差 的 估计 也 相当 困 
难 。 严 格 的 xPS 抽 样 只 有 在 ”= 2 时 才 有 一 些 简单 实用 的 方法 ,对 于 n >2 的 情形 ， 
严格 的 xPS 抽 样 则 相当 复杂 ,在 实际 工作 中 ,可 以 道 过 分 层 ,在 每 层 中 进行 严格 的 
nn 一 2 的 xPS 抽 样 。 
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二 、\ 堆 维 茨 - 汤普森 估计 量 
对 于 不 放 回 不 等 概 抽样 ,对 总 体 总 量 Y 的 估计 是 霍 维 芯 - 汤普森 (Horvitz - 
Thompson) 估计 : 
Yr = > 兰 (5.9) 
式 中 ,r, 为 第 ; 个 单元 的 包含 概率 ， 
如 果 zi > 00 = 1,2.…,N), 则 Yar 戌 Y 的 万 仿 估计 , 它 的 方差 为 : 


VYsr) = > 元 下 ES 六 YY, (3.10) 
进一步 ,如 果 固定， 则 
< QA v 2 
Vn) = Dn -i) (EE) (5.1) 
全 名 ti 


由 方差 表达 式 可 知 , 要 使 估计 量 的 方 产 V( hm) 小 .应 尽 可 能 使 蔚 (; = 1 
2,…, N) 之 间 的 差别 比较 小 。 
如 果 x; > 0,z > 0(i,j = 12 Ni 天 门 , 则 V(r) 的 无 偏 估计 为 ; 


vn) = 2D yy (5.12) 


is tp: MNT 





如 果 # 国定, 则 V《 pr) 也 可 用 Yates,Grundy 和 Sen 提出 的 


一 2 
wes Yr) = DD 二 (位 玫 ) (5.13) 


= > Ty i 下 

来 估计 , 它 也 是 无 偏 估计。 

在 实际 工作 中 ,这 两 个 估计 式 都 不 是 特别 理想 ,因为 它们 都 有 可 能 为 负 值 ,但 
当 n = 2 时 ,vyes( Yr) 总 是 大 于 零 。 

下 面 我 们 以 不 放 回 不 等 概 抽 样 来 说 明 不 等 概 抽样 要 比 简 单 随机 抽样 的 估计 精 
度 高 。 

【 例 5.3】 假设 有 5 个 居委会 ,每 个 居委会 的 住户 数 X 已 知 ,但 常住 居民 人 数 
未 知 ,我 们 从 这 5 个 居委会 抽出 2 个 来 估计 常住 居民 的 总 人 数 。 如 表 5,3。 























囊 5.3 5 个 居委会 有 关 数 据 
i 住户 数 (X) 常住 居民 人 数 (Y) 包 合 概 率 (x,) 
400 1100 0.8 
2 L 250 600 0.5 
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续 前 表 


























i 住户 数 (X) 常住 居民 人 数 (Y》 包含 概率 (r,) 
3 200 500 0.4 
4 100 240 0.2 
5 50 80 0.1 
> 1 000 2 520 一 
表 中 的 包含 概率 为 : 

X; xX; 
Tn 
“ xX 

xX, " 


从 5 个 居委会 中 不 放 辐 地 抽出 2 个 居委会 ,不 论 是 不 放 回 不 等 概 摘 样 还 是 简 
单 随机 抽样 ,共有 10 种 不 同 的 样本 ,我 们 对 这 些 样本 分 别 利用 均 维 英 - 汤普森 估 
计量 及 简单 随机 抽样 简单 估计 计算 对 总 量 的 估计 。 如 表 5.4。 

















表 5.4 不 同 估计 量 的 估计 结果 
样 ”本 Y Y。 
1 ,2 2 .575 4 250 
1.3 2 625 4000 
上 ,4 2 575 3 350 
1,5 2 175 2 950 
2,3 2 454 2750 
2,4 2 400 2 100 
2,5 200 1 7300 
3,4 2450 | 1 850 
3,5 2050 1 450 
4,5 | 2 000 ! 800 
从 理论 上 说 , yw 和 立 、 部 是 无 偏 估计 ,它们 的 均值 是 2 520, 为 计算 估计 量 的 
均值 ,必须 计算 每 个 样本 被 抽出 的 概率 .对 于 简单 随机 抽样 ,每 个 样本 被 抽出 的 概 


率 相 则 ,因此 可 以 对 上 述 10 个 样本 的 估计 进行 简单 平均 ,但 不 放 回 不 等 概 样本 ,每 
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个 样本 被 抽出 的 概率 的 计算 并 不 容易 。 

为 比较 估计 量 的 优 劣 , 需 计算 估计 量 的 方差 ,这 也 用 到 每 个 样本 被 抽出 的 概 
率 , 不 过 从 上 例 ,我 们 可 以 看 出 , Ye 比 六 更 集中 于 总 体 均值 。 因 此 ,不 放 回 不 等 
摄 起 维 茨 ~ 汤普森 估计 量 比 简单 随机 抽样 简单 估计 更 精确 ,出 现 这 种 结果 是 因为 
X 和 YY 之 问 有 较 强 的 相关 关系 。 





三 ,n 不 同情 况 下 的 严格 xPS 抽样 

我 们 在 上 面 提 到 的 严格 的 rPS 抽样 ,就 是 指 n 固定 .严格 不 放 回 、 包 含 概率 x; 
与 单元 大 小 严格 成 比例 , 即 x, = nZ;。 下 面 分 别 介绍 一 种 适合 于 a = 2 和 n > 2 情 
形 的 严格 的 xPS 抽样 。 

(一 jn = 2 的 情形 

对 于 ”= 2 的 情形 ,在 总 体 中 只 抽 2 个 单元 ,因此 ,通常 用 逐个 抽取 法 来 保证 : 
样 是 不 放 回 的 。 我 们 可 以 采用 几 种 不 同 的 抽样 方法 。 对 总 体 所 有 的 单元 , 如 果 有 


已 < 二， 就 可 以 采用 Brewer( 布 鲁 尔 ) 方法 。 











2 








Brewer 方法 的 两 个 样本 单元 的 抽取 方法 是 ; 按 与 成 比例 的 概率 


取 第 一 个 单元 , 记 第 一 个 被 抽出 的 单元 为 j, 按 与 也 过 成 比例 的 栋 在 下 


的 N - 1 个 单元 中 抽取 第 二 个 单元 。 
Brewer 方 法 的 包含 概率 为 : 
Ti = 22, 
4ZZ,(1 -ZZ -2 
i - 2 和 二 (5.14) 
(20) -25)(1+ DTSz) 


于 是 对 总 体 总 量 估计 可 采用 Horvitz ~ Thompson 佑 计量 : 








二 
= 过 + 二 ( 半 + 关 】 (5.15) 

9 mony 
wos( Vir) = 3 到 ( 糙 - 兰 ] (5.16) 


【 例 5.4】 对 于 例 5.3, 如 果 抽样 是 按 Brewer 方 法 的 , 则 其 所 有 可 能 样本 的 x， 
如 表 5.5。 
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表 5.5 所 有 可 能 样本 的 ry 计算 结果 








样 本 Y my 
1,2 2 575 : 0.348 79 
1.3 2 625 0.265 74 
1,4 2 575 0.124 57 
1.5 2 175 0.060 90 
2.3 2 450 0.091 35 
2,4 2 400 0.040 48 
2,5 2 000 0.019 38 
3,4 2 450 0.029 07 
3,5 2 050 0.013 84 
4,5 2 000 0.005 88 











于 是 ,可 以 按 下 述 公式 
El(Ysp) = 2) Yapry 
Vg) = DY - Yr 
计算 js 的 均值 及 方差 ,它们 分 别 是 2 520 和 22 670.93。 与 简单 随机 抽样 简单 估 


计 邓 的 方 养 1 151 100 相 比 ,Ysw 比 总 ,精确 得 多 。 

(二 )m > 2 的 情形 

对 于 >2 的 情形 ,也 有 几 种 不 同 的 抽样 方法 ,例如 Brewer 方 法 就 可 以 从 = 
2 推广 到 ”> 2 的 情形 , 但 它 的 xy 计算 相当 复杂 。 下 面 介 绍 一 种 比较 方便 的 方 
法 一 一 水 野 法 。 

水 时 法 也 是 一 种 逐个 抽取 的 方法 , 它 以 概率 


2 2 5 = 2 (5.17) 


抽取 第 一 个 样本 单元 ,在 剩 下 的 N -1 个 单元 中 ,不 放 回 ,等 概率 地 抽出 x 一 1 个 样 
本 单元 ,为 了 保证 每 个 Z” 渤 0, 要 求 每 个 单元 的 大 小 满足 


7 — DM. 
M, 六 ny (5.18) 


为 满足 这 -点 ,必须 避免 M, 相差 过 大 ,我 们 可 以 通过 分 层 ,将 大 小 相似 的 单元 分 
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到 同一 个 层 来 解决 这 个 问题 。 
对 于 水 时 法 ,其 包含 概率 为 ， 
= (5.19) 
my = 和 = [Nar + Zr)+ 2] (5.20) 














将 其 代入 Horvitz - Thompson 估计 量 就 可 对 总 体 总 量 进行 估计 。 


\ 几 种 非 严格 的 xPS 抽样 

在 实际 工作 中 ,我 们 有 时 采用 非 严格 的 xPS 抽样 ,就 是 指 a 不 固定 ,而 是 随机 
的 ;或 不 是 严格 不 放 回 的 ;或 包含 概率 xi 与 单元 大 小 并 非 严 格 成 比例 , 即 ri = n2Z; 
不 严格 成 立 。 

{ 一 )Yates - Grundy 逐个 抽取 法 

Yates - Grundy( 耶 获 - 格 伦 迪 ) 逐个 抽取 法 ,每 次 都 以 与 未 入 样 的 单元 的 发 
成 比例 的 概率 抽样 , 即 以 Zi; 抽取 第 一 个 样本 单元 ,不 妨 记 被 抽 中 的 单元 为 第 1 个 ; 


以 过 却 在 简 下 的 N ~ 1 个 单元 中 抽取 第 二 个 样本 单元 ,不 妨 记 被 抽 中 的 单元 为 

















第 2 个 以 [一 部 -元 在 梨 下 的 N - 2 个 单元 中 抽取 第 三 个 样本 单元 ; 依 此 类 推 ， 
直到 抽出 a 个 样本 单元 。 这 种 方法 显然 不 是 与 单元 大 小 严格 成 比例 的 ,但 它 在 
不 放 回 不 等 概 拍 样 中 操作 最 简单 .想法 最 自然 ,因而 在 实际 中 人 们 常常 使 用 。 
Yates - Grundy 方 法 的 ri 不 易 计 算 ,因而 不 能 用 Horvitz - Thompson 佑 计量。 
我 们 可 以 采用 Raj( 拉 奇 ) 估计 量 。 
设 wy2，…， 为 按 抽 中 磊 序 排列 的 禅 本 单元 的 指标 值 , 相 应 的 Z 值 为 =)， 


2 人 





1) Ga 
= J 
和 
w 


则 Raj 估计 量 为 : 
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证 (5.22) 
它 是 总 体 总 量 了 EY, 对 其 方差 V( YR) 的 无 偏 估计 为 : 
v( YR) = sD 和 如 {5.23) 


【 例 5.5】 总 体 由 N= 0 = 30, 要 在 总 体 中 按 不 等 概 逐 个 机 
取 法 抽出 ” = 3 个 样本 单元 ,并 在 调查 后 对 总 体 进 行 推算 。 
解 :(1) 首先 利用 代码 法 来 进行 抽样 ,6 如 表 5.6。 














可 5.6 抽样 过 程 表述 表 
抽取 第 一 个 样本 单元 抽取 第 二 个 样本 单元 抽取 第 三 个 样本 单元 
? NBM 代码 M | 代码 M; _ 
1 3 3 3 
2 i 1 1 
3 6 6 全 
4 4 
5 7 7 7 
6 3 3 3 
了 1 1 1 
8 2 2 
9 2 2 2 
10 1 1 1 
> Mo = 30 Mo — Ms = 26 Mo — Mi — Ms = 24 




















如 果 在 [1,30] 的 范围 内 产生 的 随机 数 为 人 2, 则 代码 12 所 在 的 4 号 单元 被 




















如 果 在 [1,26] 的 范围 内 产生 的 随机 数 为 23, 则 代码 23 所 在 的 8 号 单元 被 

















如 果 在 [1,24] 的 范围 内 产生 的 随机 数 为 5, 则 代码 5 所 在 的 3 号 单元 被 柚 中 。 
(2) 接 下 来 由 样本 推算 总 体 。 


该 被 拍 出 的 顺序 排列 ,样本 单元 为 4,8,3 号 单元 ,相应 的 = 值 为 尚 ,元 , 右 。 
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调查 完毕 后 ,如 果 相 应 的 指标 值 为 % ,ys,y3, 先 计算 


.5 


4 
30 
tf2 = yt 2 一 =) 一 4 + 党 [1 - 荔 )= ya + 13yg 
30 
B= y+ y+ - 4 x8) = y+ywt+ 襄 (1- 萝 - 况 ) 
| 30 
= ys + ye +t 4yy 
将 n=3 及 1,t2,t3 代 入 
oo) = aD 一 
则 得 到 总 体 总 量 的 估计 及 其 方差 的 样本 估计 。 
(二 )Poisson 抽样 


Poisson( 汽 松 ) 抽样 是 一 种 严格 不 放 回 ,x; = nZ 严格 成 立 ,但 样本 量 = 事先 不 
能 确定 的 抽样 方法 ,由 Hajek( 哈 杰克 ) 没 计 。 

这 种 方法 对 总 体 每 个 单元 赋予 一 个 人 样 概率 x, ,好 设 定 - -个 常数 no, 使 得 
mi = N02Zio 然 后 对 总 体 每 个 单元 分 别 产 生 一 个 [0,1] 之 问 的 随机 数 ", 如 果 - < 
wi, 则 这 个 单元 被 抽 中 ,否则 ,这 个 单元 就 未 被 抽 中 。 这 类 似 于 对 每 个 单元 分 别 以 一 
定 的 中 奖 概 率 进行 抽奖 ,结果 是 每 个 单元 都 有 两 种 可 能 ,要 么 中 奖 , 要 么 不 中 奖 。 例 
如 , 某 个 单元 入 样 概率 为 0.82, 则 产生 00 一 99 之 间 的 一 个 随机 数 (00 对 应 100) ,不 
妨 这 个 随机 数 为 63, 则 [0,1] 之 问 的 随机 数 + = 0.63, 这 里 0.63 < 0.82, 因 此 ,这 
个 单元 被 抽 中 。 

这 时 对 总 体 总 量 Y 的 佑 计 可 以 仍 朋 采用 Horvitz - -Thompson 估计 车: 


Yrps = > a {5.24) 
它 是 总 体 总 量 Y 的 无 偏 估计 ,对 其 方差 VC zs) 的 无 偏 估计 为 : 


v( Ys) = a- (5.25) 


Poisson 法 每 次 的 样本 量 ”事先 不 能 人 确定 ,一 种 极端 的 情形 是 可 能 一 个 单元 也 
没 被 抽 中 ,或 所 有 的 单元 都 被 抽 中 ,这 是 它 的 主要 缺点 -当然 ,如 果 出 现 这 种 极端 的 
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情形 , 则 重新 进行 Poisson 抽样 ,直到 样本 不 出 现 上 述 的 极端 情形 为 止 。 
小 结 


本 章 介绍 了 不 等 概 抽样 方法 , 它 是 与 简单 随机 抽样 方法 平行 的 一 类 方法 不 等 
概 抽样 主要 用 于 总 体 单元 差 措 非常 大 , 而 推算 目标 是 总 体 总 量 的 情形 ,同时 , 它 也 
广泛 用 于 整 群 抽样 时 群 的 规模 差异 较 大 、 多 阶段 抽样 中 初级 单元 差异 较 大 的 情况 
下 对 群 ,初级 单元 的 抽取 。 

不 等 概 抽样 的 效率 比较 高 , 它 能 大 大 地 提高 估计 精度 。 但 使 用 它 的 条 件 是 , 需 
要 说 明 总 体 单元 大 小 (规模 ) 的 辅助 变量 来 确定 每 个 单元 的 人 样 概率 或 包含 概率 ， 
这 对 抽样 和 推算 过 程 都 是 需要 的 。 

不 等 概 抽 样 按 抽样 时 样本 单元 是 否 放 回 可 以 分 为 PPS 抽样 和 xPS 抽样 -PPS 
抽样 操作 实施 相对 简单 些 ,严格 的 xPS 抽 样 在 x = 2 时 能 够 实施 ,对 于 ” > 2 的 情 
形 则 比较 复杂 ,通常 这 时 采用 不 严格 的 xPS 抽样 。 




















本 章 附录 ”不 等 概 抽 样 估计 量 性 质 的 证 明 


1. 证 明 汉 森 - 赫 维 芯 佑 计 的 性 质 。 
证 明 : 由 于 PPS 扩 样 是 从 同一 个 总 体 中 进行 n 次 独立 抽样 ,可 以 设想 抽样 是 从 
总 体 


中 站立 抽 取 的 ,单元 基 被 抽 中 的 概率 是 ,这 里 = 1 .这 时 ,iur = 小 六 区 是 
所 效 得 样本 的 平均 数 。 因 此 
E( Ym) = iE(2)- Dz)= Y 
即 交 ny 是 无 信 的 。 
Yiz1 的 方差 是 总 体 方差 的 十 ,而 总 体 方差 为 : 


ad) 
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[其 无 偏 估计 为 : 
i v 他 _o 


2 过 





五 


因而 ,Yimz 的 方差 为 ; 
V( Zn) = Lz 
V( rr 的 无 偏 估计 为 : 


了 





习 题 


1. 某 大 型 企业 集团 欲 对 总 部 及 子 公司 各 部 门 工 作 情 况 进行 抽查 ,根据 时 间 要 
求 ,准备 抽出 = 个 部 门 进行 调查 .调查 人 员 从 人 事 部 门 的 计算 机 里 获得 了 集团 全 体 
职工 的 名 单 ,这 份 名 单 注 明 了 每 个 职工 工作 的 部 门 。 调 查 人 员 在 计算 机 上 顺序 给 每 
位 职工 编号 ,最 大 号 为 N ,并 利用 计算 机 分 别 从 上 ~ N 中 产生 了 个 伪 随 机 数 , 根 
据 这 个 随机 数 所 对 应 的 号 码 , 找 到 了 对 应 的 职工 ,于 是 将 这 个 职工 所 在 的 部 门 
记录 下 米 ,然后 调查 者 分 别 对 这 些 部 门 进 行 了 调查 访问 有 人 认为 :“ 这 不 是 抽 部 
门 ,而 是 抽 职 工 ,而 且 抽 到 某 个 职工 则 这 个 部 门 的 所 有 (可 以 看 籁 袖 样 框 中 与 之 
邻 的 ) 职工 都 被 抽 中 , 这 显然 违反 了 随机 的 原则 , 而 且 操作 费事 , 应 该 直接 抽 部 
门 。 对 此 ,你 有 和 何 评论 ? 

2. 某 个 调查 人 员 从 总 体 中 抽出 了 一 个 样本 量 为 n 的 简单 随机 样本 ,调查 开始 
之 前 ,他 又 获得 了 一 份 总 体 单元 的 详细 名 单 ,这 份 名 单 很 不 错 ,除了 单元 的 名 录 ,还 
有 每 个 单元 的 其 他 相关 指标 ,因此 他 在 调查 每 个 样本 单元 的 时 候 注 明 了 它们 的 其 
他 相关 指标 调查 完成 后 ,调查 人 员 发 现 每 个 单元 的 目标 量 (yw) 差异 非常 大 ,但 目 


标量 除 以 某 个 相关 指标 (x;) 之 后 , 差异 非常 小 。 因 此 ,为 了 提高 估计 的 精度 ,他 
决定 采用 下 述 公式 进行 推算 : 


Y= XxX: 








2 








式 中 ,X= i % ,这 个 指标 可 以 从 调查 人 员 后 来 获得 的 总 体 单元 名 单 中 得 到 、 
二 

依据 .上 述 公 式 推 算得 到 的 结果 ,精度 相当 高 ,该 调查 人 员 非 常 满意 。 你 认为 该 
调查 人 员 的 .工作 有 需要 改进 的 地 方 吗 ? 

3. 比较 PPS 抽样 Hansen - Hurwitz 估计 旺 与 简单 随机 抽样 比 率 佑 计量 的 差 
别 。 

4. 对 某 个 总 体 的 调查 ,事先 规定 了 每 个 单元 被 抽 中 的 概率 ,如 下 表 。 斌 利用 代 
但 法 抽出 一 个 n = 3 的 PPS 样本 。 

















; i 之 ， I Zz 

1 0.104 | 6 ob7 
2 0.192 | 7 , 0.089 

3 0.138 | 8 0.038 
4 | 0.062 9 0.057 

5 | 0.052 | 1 0.124 





5. 如 果 上 题 中 被 抽 中 的 是 3,4,10 号 单元 , 调查 得 到 它们 的 值 分 别 是 320， 
120,290, 试 估计 总 体 总 量 并 计算 估计 的 标准 差 。 

6. 假设 总 体 大 小 为 N = 6, 说 明 单元 大 小 的 指标 值 分 别 为 2,9,3,2,1,6, 拟 采 
用 w=2 的 xPS 抽 样 , 试 列 出 所 有 可 能 的 样本 ,计算 每 个 单元 的 人 样 慨 率 ; 及 每 对 
单元 人 样 的 概率 xj ,并 验证 式 (5.5) 式 (5.6)。 

7. 对 于 下 述 人 为 总 体 : 

















i 1 | 2 3 4 | 5 
Y,; 10 9 5 2 4 
X, 7 

上 5 3 1 2 








如 果 nx = |, 试 计算 下 述 估计 量 ,并 对 各 种 估计 量 的 均 方 误差 进行 比较 。 
(1) 简单 随机 抽样 简单 估计 ; 
(2) 简单 随机 抽样 比 估计 ; 
(3) PPS 抽样 Hansen - Hurwitz 估计 。 
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前 面 几 章 提 到 抽取 样本 单元 时 ,都 是 指 组 成 总 体 的 基本 单元 , 即 抽样 单元 和 基 
本 单元 是 一 致 的 由 若干 有 联系 的 基本 单元 所 组 成 的 集合 称 为 群 。 抽 样 时 抽取 群 ， 
并 对 人 选 群 的 所 有 基本 单元 进行 调查 , 称 这 种 方法 为 整 群 抽样 第 一 节 介 绍 整 群 抽 
样 的 定义 ,特点 和 如 何 划分 群 ,第 二 节 介绍 群 大 小 相等 条 件 下 的 估计 ,第 三 节 介绍 
群 大 小 不 等 条 件 下 的 估计 ,第 四 节 介绍 有 关 整 群 抽样 中 比例 估计 的 问题 。 


§6.1 引言 


一 、 整 群 抽样 的 定义 与 特点 

(一) 定义 

整 群 抽样 (cluster samplting) 是 将 总 体 划分 为 若干 群 ,然后 以 群 (cluster) 为 抽样 
单 所 .从 总 体 中 随机 抽取 一 部 分 群 ,对 中 选 群 中 的 所 有 基本 单元 进行 调查 的 一 种 抽 
样 技术 。 

例如 ,和 欲 对 其 校 学 生 进 行 抽样 调查 ,可 以 采用 两 种 不 同 的 抽样 方法 ,一 种 是 根 
据 学 生 名 录 随 机 抽取 学 生 , 然 后 对 被 选中 的 学 生 实施 调查 ; 另 一 种 方法 不 是 直接 朱 
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选 学 后 ,而 二 随机 抽 耻 六 下 问 学 生 宿 含 ， 
三 -种 方法 就 是 整 群 
士 :在 整 群 失 
折 组 成 的 集合 称 为 群 , 调 僵 时 以 群 为 
有 有 基本 单 必 进行 阅 查 - 

从 方法 上 看 , 整 娠 














抽样 是 由 一 阶 


样 .由 此 可 知 ,与 前 面 几 章 所 介绍 的 抽样 方式 的 不 同 
样 中 ,抽样 单元 与 接受 调查 的 基本 单元 是 不 同 的 ,由 车 十 个 基本 单元 
样 单元 抽取 样本 ,然后 对 样 木 中 所 包含 的 所 





然 丘 对 住 企 该 宿 作 的 所 有 学 生 实 





点 在 


样 向 多 阶段 抽样 过 渡 的 桥梁 。 在 第 一 阶段 盾 


样 中 ,如果 拉 出 群 后 即 对 共 中 的 所 有 单元 进行 调查 ,是 单 阶段 整 群 抽样 。 如 果 抽 出 


群 单元 后 .进一步 从 中 
以 进一步 在 子 样本 的 各 单元 中 
-个 阶段 所 抽出 的 单元 可 以 是 
合 )。 对 于 前 者 … 般 称 为 多 阶段 
阶段 整 群 册 样 , 事 实 上 ， 
单 阶段 整 群 抽样 进行 计 

(二 ) 特点 














论 。 


按 低 一 级 的 单元 抽取 子 样本 (二 阶段 }, 即 两 阶段 抽样 .也 可 
按 更 低 一 
最 终 基本 单元 ,也 可 以 仍然 是 群体 (基本 单元 的 集 
样 , 这 部 分 内 容 将 在 下 一 章 讨论 。 对 于 后 者 称 为 多 
多 阶段 整 群 抽样 是 多 阶段 抽样 中 的 一 种 情形 , 故 本 章 仅 对 


级 的 单元 再 抽 子 样本 (三 阶段 ) ,等 等 ,最 后 





1. 抽样 框 编制 得 以 简化 。 


样 调查 中 需要 有 包括 所 有 总 体 基本 单元 的 抽样 


幅 , 才 能 应用 前 几 童 所 介绍 的 抽 样 方式 抽取 样本 。 但 是 在 实践 中 ,有 时 构造 这 样 的 





抽样 框 是 不 可 能 的 ,因为 没有 可 


应 的 资料 ,有 时 虽然 可以 构造 这 样 的 抽样 框 ,但 工 





作 基 极 大 。 比 较 而 言 , 构 造 群 的 抽样 框 则 


要 容易 、 方 便 一 些 。 例 如 对 北京 市 小 学 生 的 


视力 状况 进行 抽样 测 查 ,要 获得 北京 市 所 有 小 学 生 的 名 单 | 分 困难 ,但 车 以 学 校 作 
为 群 ,得 到 北京 市 所 有 小 学 校 的 名 单 则 要 容易 得 多 。 





2. 实施 调查 使 利 ,节省 费 月 
样 会 使 样本 分 布 过 于 分 散 ,给 调 
单 无 的 分 布 村 
且 , 如 果 群 是 以 行政 单位 划分 的 ,调查 时 
施 ,可 得 到 较 高 质量 的 原始 数据 。 

整 群 抽样 的 主要 弱点 是 ,通常 情况 
较 集中 , 一 个 








查 并 





绊 内 各 单 匹 之 间 的 差异 比较 4 


。 在 总 体 基 本 单元 分 布 很 广 的 情形 下 ,简单 随机 抽 
带 来 不 便 , 并 使 调查 费用 增 大 。 而 整 群 抽样 调查 
对 集中 ,调查 人 员 能 节省 大 量 来 往 于 调查 单元 间 的 时 间 和 费用 。 而 


得 到 行政 单位 的 配合 ,更 有 助 于 调查 的 实 


下 其 抽样 误差 较 大 。 因 为 抽取 的 样本 单元 比 


,而 不 同 群 之 间 的 差别 比较 大 ,这 样 每 





、 





个 样本 单元 所 提供 的 信息 价值 量 就 很 有 
但 由 寺 整 群 抽样 省 时 省 力 ,每 个 单 苑 的 了 
本 成 的 方法 弥补 估计 精度 的 损失 。 

但 是 ,对 于 某 些 特殊 结构 的 总 体 , 整 
的 总 体 是 指 ,总 体 中 各 个 群 的 结构 相似 ， 
估计 和 男女 性 别 比例 ,以 家 庭 作 为 群 ,采用 








限 , 因 此 抽样 误差 常常 大 于 简单 随机 抽样 。 
F 均 调查 费用 较 少 , 故 可 以 通过 适当 增 大 样 








群 抽样 反而 有 较 高 的 精度 。 这 种 特殊 结构 

例如 一 般 家 庭 成 员 中 都 有 男性 女性 ,如 果 

整 群 抽样 ,估计 的 精度 要 比 家 接 抽取 个 人 
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进行 估计 的 精度 高 。 


二 、 群 的 划分 

整 群 抽样 中 的 “ 群 ” 大 致 可 分 为 两 类 ,一 类 是 根据 行政 或 地 域 形 成 的 群体 ,如 
学 校 ,企业 或 街道 ,对 此 采用 整 群 抽样 是 为 了 方便 调查 ,节省 费用 ; 另 一 类 群 则 是 调 
查 人 员 人 为 确定 的 ,如 将 一 大 块 面积 划分 为 若干 块 较 小 面积 的 群 ,这 时 就 需要 考虑 
如 何 划分 群 ,以 使 在 相同 调查 费用 下 抽样 误差 最 小 。 

分 群 的 一 般 原则 可 以 用 方差 分 析 的 原理 说 明 。 当 总 体 划分 为 群 以 后 ,总 体 方差 
可 以 分 解 为 群 间 方 莽 和 群 内 方差 两 部 分 ,这 两 部 分 是 此 消 徙 长 的 关系 , 若 群 问 方差 
大 则 群 内 方差 小 ;反之 , 群 间 方 差 小 则 群 内 方差 大 。 由 于 整 群 抽样 县 对 人 选 群 中 的 
所 有 单元 者 进行 调查 ,因此 影响 整 群 抽样 误差 大 小 的 主要 是 群 间 方 差 。 为 了 提高 整 
群 抽样 估计 的 精度 ,划分 群 时 就 应 使 群 内 方差 尽 可 能 大 ,而 使 群 间 方 差 尽 可 能 小 。 
换 名 话说 ,划分 群 时 应 力争 使 同一 群 内 各 单元 之 间 的 差异 尽 可 能 大 ,以 避免 同一 群 
内 各 单元 提供 重复 信息 。 这 个 原则 与 分 层 抽样 中 划分 层 的 原则 恰好 相反 。 由 此 看 
来 , 整 群 抽样 和 分 层 抽 样 是 针对 不 同 总 体 结构 而 提出 的 两 种 不 同 抽样 方式 ,当然 ， 
对 于 一 些 复杂 结构 的 总 体 ,也 可 以 把 两 种 抽样 方式 结合 起 来 ,以 发 挥 各 自 的 特长 。 






































三 、 群 的 规模 

群 的 规模 是 指 组 成 群 的 单元 的 数量 。 在 整 群 抽样 中 , 群 的 规模 具有 相当 的 灵活 
性 ,可 以 大 些 ,也 可 以 小 些 。 群 的 规模 大 ,估计 的 精度 差 但 费用 省 ; 群 的 规模 小 ,估计 
的 精度 可 以 提高 但 费用 增 大 。 实 践 中 确定 群 的 规模 涉及 多 种 因素 , 如 群 的 具体 结 
构 、 精 度 费 用 问题 ,调查 实施 的 组 织 管理 等 。 在 正常 情况 下 , 群 的 规模 不 宜 过 大 ,对 
于 规模 很 大 的 群 ,通常 需要 采用 多 阶段 抽样 ,一 些 学 者 利用 方差 函数 与 费用 函数 对 
群 的 最 优 规模 进行 过 理论 上 的 讨论 。 

群 的 规模 又 有 两 种 情况 ,一 种 是 总 体 中 的 各 个 群 规模 相等 ; 另 一 种 是 总 体 中 各 
个 群 的 规模 不 等 本 章 将 分 别 对 这 两 种 情况 进行 讨论 。 





$6.2 群 规模 相等 时 的 估计 


若 总 体 N 个 群 中 ,每 个 群 所 包含 的 单元 数 M 相等 , 则 称 群 规模 相等 ,实际 问 
题 中 只 要 群 规模 接近 ,也 可 视 为 群 规模 相等 ,这 时 ,一 般 采 用 简单 随机 抽样 抽取 群 。 
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一 、 符 号 说 明 

总 体 群 数 ;NN 

样本 群 数 ; 

总 体 第 i 群 中 第 ; 个 单元 的 指标 值 ; Yo 
样本 第 i 群 中 第 j 个 单元 的 观测 值 : y 


第 ; 群 中 的 单元 数 ; M; 在 本 节 中 ,各 群 规模 相等 , 故 有 


总 体 中 单元 总 数 : Mo = Sm 
总 体 中 第 ; 群 的 群 总 值 : Y; = > Ys 
样本 中 第 i 群 的 群 总 值 :w =- >» 
总 体 中 第 ; 群 的 个 体 均值 :了 = 站 
样本 中 第 ; 群 的 个 体 均值 :元 = 关 


芯 


总 体 中 的 群 均值 :了 = > Ey 
样本 中 的 群 均值 :7 = 也) 关 
总 体 中 的 个 体 均值 :了 = 





样本 中 的 个 体 均值 :3 = 


总 体 群 间 方 差 :S; = Ne > (7, ~ 了) 


总 体 群 内 方差 :SS = RX 凡 下 


MS 


床 
好 
强 
西 
过 
旺 
有 
t 
四 
1 


MI = M2 = … = My = M( 各 Mi 相等 记 作 M) 





样本 群 内 方 益 ; 呈 = 3 一 1 党 (3 -到 


二 、 估 计量 

(一 ) 均值 估计 量 的 定义 

采用 整 群 抽样 , 若 群 的 抽取 是 简单 随机 的 , 且 群 的 大 小 相同 , 丝 等 于 M, 则 对 
总 体 均值 了 的 估计 为 : 





5 -站 (6.1) 
(二 ) 估计 量 3 的 性 质 
性 质 1 5 是 了 的 无 偏 估计 。 即 

E(5)=Y (6.2) 

















这 是 显然 的 。 因 为 是 按 简单 随机 方法 抽取 群 ,因此 样本 群 均值 是 总 体 群 均值 


了 的 无 信 估 计 , 因 而 (35) = 声 = 了 。 




















性 质 2 5 的 方差 为 : 
= fl yy _ sy 
VD Ni (6.3) 
1- 
= 二 (6.4) 
由 前 而 符号 说 明知 ,7 = M5, 又 
1 D7y 
2V(F) = 5) = El 
MV(F) = V(y) = a 和 DT 
故 
YY) 
V9 -二 
aM? N-1 
Ci 
1 SY 7) 1 


性 质 3 V(5) 的 样本 估计 为 ， 
= 二 入 (6.5) 
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由 于 叶 是 S; 的 无 偏 估计 ,因而 wv(3) 是 V(5) 的 无 偏 估计 。 
总 体 总 值 Y = NIMY 的 估计 基 及 相应 的 方差 可 以 根据 前 面 结果 直接 推出 , 即 


Y= NM {6.6) 

VOY) = VNMS) = N*M V3) (6.7) 

v0) = NIM?w(5) {6.8) 
三 、 整 群 抽样 效率 分 析 


整 群 抽样 的 估计 精度 与 群 内 相关 系数 有 关 。 群 内 相关 系数 p 描述 的 是 同一 群 


内 成 对 个 体 单元 之 间 的 相关 程度 ,表达 式 为 ; 


式 中 


_ E(Ys- Y)(Yu- Y) 
~ E(Y,- Y) 
P ,分 子 是 对 每 个 群 中 M 个 个 体 单元 两 两 配对 的 离 差 乘积 求 平均 ,然后 再 就 N 


《6.9) 





个 群 求 平均 ,因此 这 样 的 离 差 乘积 的 个 数 共有 NC 和 = SLC 一 1 个 于 是 式 


《6 





9) 中 的 分 子 为 
pa -YY - Y) 
RU 
2 
式 (6.9) 中 的 分 母 是 对 NM 个 个 体 单元 的 离 差 平方 项 求 平均 , 故 可 以 写 为 : 


A 
2 2 -3) 
i=1 IC 

NM 











于 是 p 又 可 以 写 为 : 
wd 
22 PY, - FY ~ 7) 


2 (MD -1S 
事实 上 ,估计 量子 的 方差 可 以 用 群 内 相关 系数 近似 表示 : 


V5) = HV) 
1 
nM2 
= SS:[l+ (M1)p] 


(6.10) 











1 鼠 2 
ND 
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lf 
~ ST COM- Do (6.11) 


车 采取 简单 随机 抽样 ,直接 从 总 体 中 抽取 nM 个 个 体 单元 , 则 样本 均值 y 的 方 
养 公式 为 : 


V5) =: 
由 此 ， 可 以 计算 等 儿 ( 客 规模 村 ) 抽样 的 设计 效应 : 
deff = VIO) ll+(M- Dp (6.12) 





Vo 3) 

这 说 明 , 整 群 抽样 的 方差 约 为 简单 随机 抽样 方差 的 1+ (M - 1)p 倍 .也 就 是 
说 ,为 了 得 到 相同 的 估计 精度 , 整 群 抽样 的 样本 量 是 简单 随机 抽样 样本 量 的 
1+(M ~ 1)p 售 。 

整 群 抽样 的 估计 效率 ,与 群 内 相关 系数 p 关系 密切 。 如 有 果 群 内 各 单元 的 值 都 相 
等 , 则 群 内 方差 52, = 0, 此 时 p = 1 为 最 大 值 ,在 这 种 情况 下 deff = M. 即 整 群 抽 
样 的 估计 量 方差 是 简单 随机 抽样 估计 量 方差 的 M 们 ;车 群 内 方差 与 总 体 方差 相 
等 ,意味 着 分 群 是 完全 随机 的 ,这 时 p ze 0,defr = 1, 整 群 抽样 与 简单 随机 抽样 估 
计 效 率 相同 ; 当 群 内 方差 大 于 总 体 方差 时 ,p 的 取 值 为 负 , 这 时 deff <-1, 整 群 抽样 
交 效 这 商人 简 和 了 抽 抽样 当 群 间 方差 S; = 0, 即 各 群 均值 Y; 都 相等 时 ,o 有 极 小 
值 - 页 上 ,所 以 的 取 值 范围 是 [ - ML]。 

要 提高 终 抽样 估计 的 效率 ， 就 要 通过 分 群 尽 可 能 降低 o 值 , 它 是 通过 增 大 群 
内 单元 之 间 的 差异 实现 的 ,这 个 结论 也 正 是 前 面 所 谈 及 的 群 的 划分 原则 。 当然 ,对 
于 自然 形成 的 群 而 言 ,无 法 通过 调整 群 内 单元 而 控制 p 的 取 值 ,这 时 ,要 想 减 少 抽 
样 误差 ,就 只 能 增 大 样本 量 。 

另外 , 群 内 相关 系数 p 也 可 以 用 群 内 方差 S& 和 群 间 方 益 S3 表示 ,并 由 样本 统 
计量 :2,s 估计 ， 

P= TT yy (6.13) 

【 例 6.1】 在 一 次 对 某 寄宿 中 学 在 校生 零花 钱 的 调查 中 ,以 宿舍 作为 群 进行 
整 群 抽样 ,每 个 宿舍 有 6 名 学 生 。 用 简单 随机 抽样 在 全 部 315 间 宿 舍 中 抽取 » = 8 
间 宿 合 。 全 部 48 个 学 生 上 周 每 人 的 零花 钱 y 及 相关 计算 数据 如 表 6.1 所 示 , 试 信 
计 该 学 校 平均 每 个 学 生 每 周 的 零花 钱 也 ,并 给 出 其 95% 的 置信 区 问 。 
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表 6.1 8 个 交合 48 名 学 生 每 周 零花 钱 支出 额 单位 :元 























宿 含 | 宿舍? | 宿舍 3 | 宿舍 4 ;宿舍 5 | 宿舍 6 | 宿舍 7 | 宿 全 8 

学 生 上 58| 91 123 | 99 110 1 120 96 
学 生 2 ”83 83 89| i05 991 100| us 80 
学 生 3 | 74 79 94 98 | 132 116 117 63 
学 生 4 82 1 109 ! 107 87 . 99 99 130 
学 生 5 8b 101 79 | 129 99 [07 | 106 105 
学 生 6 87| 6 80 gol 24| 05| ti 86 
™ 75.00 89.00 95.67 | 104.67 108.50 | 106.33 | 112.83 93.33 
32 | 125.60 | 233.60 299.07 | 177.87 | 287.50 42.27 72.57| 527.87 











解 :已 知 N=315,n=8,M=6,f = 六 =0.0254 
故 


1 75+89 + +93.33 





y= 访问 = 98.17() 
i= 1 5) 


= a TL(075 ~ 98.17)? + + (93.33 ~ 98.17)?] = 928.664 8 
由 (6.5) 式 


_1-f, 1-0.0254 加 
v($) = 人 x 928.664 8 = 18.855 8 


s(3) =V v(5) = VI8.8558 = 4.342 3 
于 是 Y 置信 度 为 95% 的 置信 区 间 为 : 
98.17 + 1.96(4.342 3) 
也 即 
[89.66 元 ， 106.68 元] 
【 例 6.2】 估计 例 6.1 中 以 宿舍 为 群 的 群 内 相关 系数 与 设计 效应 。 
解 :由 例 6.1 已 计算 出 样本 群 间 方 差 3 = 928.664 8 
府 样 本 群 内 方差 为 ; 
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(9 ~ Fi) 


"1 
2 厂 


1 
这 i=1 


3( 见 表 6.1 最 后 - 行 ) 


= 起 (125.60 + 233.60 + … + 527.87) 





= 220.79 
由 (6.13) 式 
~-_ -928.664 8 -220.79 
?H+(M- Ds 928.664 8+ (6— 1)220.75 
= 0.348 256 
由 (6.12) 式 


deff = 1+(M-1)p 
= 1+(6-1)x0.348 256 = 2.741 
设计 效应 2.741 表明 ,在 这 项 调查 中 ,为 达到 同样 的 估计 精度 , 整 群 抽样 的 样 
本 量 大 约 为 简单 随机 抽样 样本 量 的 2.74 倍 。 若 令 ww 为 简单 随机 抽样 的 样本 量 , 则 


$6.3 ” 群 规模 不 等 时 的 估计 


采用 整 群 抽样 ,如果 各 群 规模 Wi; 不 等 ,情况 会 复杂 一 些 ,现实 中 群 规模 不 等 
的 情况 更 为 常见 ,此 时 有 不 向 的 抽取 群 的 方法 和 不 同 的 估计 方法 ,本 节 将 对 这 些 方 
法 加 以 简要 讨论 。 


一 ,等 概 抽样 ,简单 估计 
此 时 不 考虑 群 规模 不 等 的 影响 ,抽样 方法 与 前 节 群 规模 相等 时 相同 ,估计 方法 
也 相同 , 即 采用 简单 估计 。 对 总 体 均值 了 的 佑 计 为 ， 
了 -并 (己基 ) (6.14) 
可 以 看 出 ,此 公式 与 前 节 (6.1) 式 相同 。 
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了 的 方 基 估计 为 ， 
5 = Lt D5» (6.15) 

因为 群 坟 模 术 等 , 信 计 时 又 未 考虑 权 数 ,所 以 信 计 量 3 是 有 仿 的 , 克 其 是 当 各 

群 夫 模 M; 差异 很 大 , 且 5 与 M 存在 较 高 相关 时 ,人 计量 的 仿 关 会 很 大 该 方法 的 


特点 是 简便 ,易于 掌握 和 使 用 。 其 适用 条 件 是 群 之 间 的 规模 差异 相差 不 很 大 时 的 整 
群 抽样 估计 。 


二 、 等 概 抽样 ,加 权 估计 


其 基本 思路 是 ,以 群 规模 M, 为 权 数 , 乘 以 各 群 均值 元 ,得 到 群 观察 值 总 和 y;， 
再 将 样本 中 x 个 群 的 群 总 和 平均 , 求 得 群 总 和 均值 7, 再 除 以 群 平均 规模 及 = 


DM 
全 一 , 求 得 均值 估计 。 其 估计 公式 为 





ys VMy_ Lv 了 
3= 宛 7 坟 (6.16) 
了.N _Y 
= 吝 = 砍 (6.17) 


sp 
如 果 总 体 群 平均 规模 腰 术 知 ,可 以 用 样本 群 平均 规模 页 = 二 一 代替 。 
由 (6.17) 式 ,方便 地 得 到 总 体 总 值 Y 的 估计 
Y = Mo (6.18) 
式 中 ,Mo = > Mi 为 总 体 中 的 个 体 单元 总 数 。 


估计 总 体 总 值 Y, 需 要 M, ,但 是 使 用 整 群 抽样 的 原因 之 一 往往 是 因为 没有 总 
体 中 个 体 单元 的 抽样 框 , 但 由 于 总 体 的 群 数 N 是 已 知 的 ,因此 可 以 采用 另 一 个 公 

















Y= > 六 (6.19) 


可 以 看 出 ,(6.18) 式 与 (6.19) 式 是 等 价 的 实际 上 , 先 利用 (6.19) 式 求 多 ,再 
利用 (6.17) 式 对 总 体 均值 进行 估计 是 比较 方便 的 做 法 。 若 M, 未 知 ,对 总 体 均值 进 
行 估计 可 采用 (6.16) 式 。 
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上 述 佑 计量 的 方差 分 别 为 : 


vy, 一 了 
VC - NOU-f) 全 (6.20) 
它 的 无 篇 估计 为 : 
2 > (y 一 5 
= 0 . 气 一 一 (6.21) 
对 均值 估计 水 而 言 : 
本、 1 Ey 
V(Y)= MY 
N21 ba 一 了 
= {6.22) 


与 简单 估计 相 比 ,此 种 加 权 估计 的 方法 考虑 了 群 规模 Mi ,所 以 估计 量 了 和 六 
分 别 是 Y 和 Y 的 无 偏 估计 ,但 是 从 方差 公式 (6.20) 和 (6.22) 看 出 ,估计 量 的 方差 
与 群 总 值 Y; 之 间 的 差异 有 关 。 如 果 群 规模 Mi 差别 很 大 ,通常 会 造成 Yi 差异 很 大 。 
这 样 , 除 了 估计 的 无 偏 性 以 外 ,在 估计 的 精度 方面 ,与 前 种 方法 相 比 ,并 没有 明显 改 
观 。 


三 、 等 概 抽 样 ,比率 估计 
总 体 均值 采用 比率 估计 的 形式 为 ， 
Dy 
= (6.23) 
Sm 
与 第 4 章 比 率 估计 的 区 别 在 于 ,这 里 的 辅助 变量 不 是 X; ,而 是 群 的 规模 M;。 从 
比率 估计 量 的 性 质 可 知 , 它 是 一 个 有 篇 估计 。 当 样本 群 数 很 大 时 ,其 篇 倚 很 小 , 故 
可 以 忽略 不 计 。 
总 体 总 值 Y 的 比率 估计 为 : 
- > 
了 = My = Mo 《6.24) 
> Mm, 


en 
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根据 比率 估计 量 的 方差 公式 ,估计 量 了 与 六 的 方差 分 别 是 : 


lf (6.25) 





VY) ~ MEV(F) = NIMIV(3) 


NG 站 PY: YM 
和 A “ N-1 





n N-1 
由 (6.25) 式 (6.26) 式 看 出 ,估计 量 3 与 的 方差 取决 于 群 的 个 体 均值 了 , 的 
差异 。 所 以 ,尽管 群 规模 M, 差异 可 能 很 大 ,但 了 ; 之 间 的 差异 却 比 Y; 之 间 的 差异 要 


小 得 多 ,因此 ,与 前 一 种 方法 相 比 ,在 大 样本 量 情 况 下 ,比率 估计 的 精度 要 更 高 一 
些 。 


V(5) 与 V(Y) 的 样本 估计 分 别 为 ; 
1 > - M53) 


(6.26) 


v(3) = 











nM? nl 
1 一 Ey 2 
-Cr Mi ~ 233 Ma) (6.27) 
太 
> — MSY 
(Y) 4- NUD. 


Nt 一 sn 
PD. Li FEM 25Y Mos) (6.28) 
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四 、 与 群 规模 成 比例 的 不 等 概 抽 群 估计 

在 群 规模 不 等 的 整 群 抽样 中 ,如 果 群 规模 差异 较 大 ,各 个 群 对 总 体 的 影响 是 不 
同 的 。 这 时 可 以 考虑 采用 不 等 概 方式 抽取 群 。 它 的 好 处 是 ,把 群 的 规模 作为 抽取 样 
本 的 辅助 信息 ,提高 估计 的 效果 ,而且 方差 估计 有 比较 简单 的 形式 。 不 等 概 抽样 有 
放 回 的 PPS 抽 样 和 不 放 回 的 rPS 抽 样 ,其 内 容 已 在 第 $ 音 介绍 .这 里 主要 以 PPS 抽 
样 为 例 进行 讨论 。 

群 的 抽取 是 按 与 M; 成 比例 的 PPS 抽样 ,每 次 按 


也 =- 部 = 1 N 

的 概率 抽取 第 i 个 群 。 根 据 汉 森 - 替 维 蒋 估 计量 ,总 体 总 值 Y 的 估计 为 : 
了 = 了 六 这 2 守 凑 -5 (6.29) 
3 = 加 族 = 二 六 (6.30) 


由 汉 森 一 人 质 和， 了 和 5 是 Y 和 了 的 无 偏 估计 。 
估计 量 的 方差 是 : 


= 
y 
= MY (6.31) 
及 
yt 
V3) = mY 
a 
= i MY- 7 (6.32) 
估计 量 的 估计 方差 则 分 别 为 ; 


eae | 


MB 
re (6.33) 
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= DY -3)? (6.34) 


五 方法 比较 

【 例 6.3] 某 县 有 33 个 乡 , 共 726 个 村 ,该 年 度 某 作物 总 种 植 面积 为 30 525 
亩 呆 。 现 采用 等 概 抽样 随机 抽出 10 个 乡 进行 该 种 作物 的 产量 调查 ,如 表 6.2。 要 求 
估计 全 县 总 产量 ,并 计算 估计 量 标准 差 。 











表 6.2 加 个 乡 调查 数据 
样本 乡 编号 | 村 庄 数 M,| 农作物 总 产量 ( 乡 )y,( 万 公斤 ) | 种 植 面积 ( 乡 )zi( 亩 ) | y; = 站 
1 15 22.0 800 1.466 了 
2 18 22.8 780 1.266 7 
3 26 30.2 1 000 1.1615 
4 14 21.7 700 1.55 
5 20 25.3 880 1.265 
6 | 2 31.2 1 100 1.114 3 
7 21 26.0 850 1.2381 
8 19 20.5 800 1.079 
9 31 33.8 1200 1.0903 
10 17 23.6 830 1.388 2 
合计 209 257.1 8 940 一 

















资料 来 源 : 李 念 旧 《 抽 样 调查 与 推断 》,215 页 ,北京 ,中 国 统计 出 版 社 ,1996。 


对 此 数据 ,可 以 采用 前 述 几 种 方法 求解 。 
(一 ) 等 概 抽样 ,简单 估计 
由 表 6.2 资料 ,计算 平均 每 个 村 的 产量 为 : 


进而 


p7882 - 1.262( 万 公斤 ) 


Y = Moy = 726 x 1.262 = 916.212( 万 公斤 ) 


外 考虑 到 抽样 调查 的 只 体 情况 ,保留 以 亩 为 单位 计算 ,下 同 。 
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Ml-f} 1 Ey 





YY -Na 一 一) 
如 YY) = Movu(y 元 DD 5) 
2 10 
726:{1 ~ 过 (1,466 7 — 1.262)* + + (1.388 2 ~ 1.262)? 
一 1 10-1 


= 966.19( 万 公斤 ) 


s(Y) = NY v(Y) = 31.1( 万 公斤 ) 
评价 :此 种 方法 的 估计 过 程 虽 不 复杂 ,但 却 是 有 偏 估 计 。 
{ 二 ) 等 概 抽样 ,加 权 估计 


Y= dy = B022. 0+ .+23.6) = 848.43( 万 公斤 ) 


n n—l 


2 
国 29697) - (20.657) = 1 567.9( 万 公斤 ) 


s(Y) -VC = 39.6( 万 公斤 ) 
评价 :此 种 方法 虽 可 获得 无 偏 估 计量 ,但 与 前 种 方法 相 比 ,估计 量 的 估计 方差 
没有 上 改观 ,反而 有 所 增 大 。 该 种 方法 的 估计 方差 与 y, 之 间 的 差异 有 关 , 它 适合 于 y; 
之 问 差异 不 大 的 整 群 抽样 。 
{三 ) 等 概 抽样 ,比率 估计 


四 
ES 


了 = Mo 一 = 726 ,2 = 893.08( 万 公斤 ) 
， 209 
M; 
二 
2 ~ Dy - MSY 
wv(Y) UL 站 
克 四 
2 
= 和 (0 097? x 9.061 = 687.8( 万 公斤 ) 


128 





s(Y) = 和 NY vlY) = 26.2( 万 公斤 ) 

评价 :比率 估计 将 群 规模 M, 作为 辅助 变量 引信 估计 ,其 估计 方差 取决 于 群 均 
值 7; 的 差异 。Y, 的 差异 比 Y, 的 益 异 要 稳定 ,所 以 比率 估计 比 前 两 种 方法 获得 更 好 
的 估计 效果 ,但 比率 估计 是 有 偏 估计 , 当 样 本 群 数 有 较 大 时 ,比率 估计 是 比较 理想 
的 估计 方法 。 

进一步 分 析 发 现 ,影响 日 标 变 芋 Y; 的 因素 不 仅 有 村 庄 数 ( 群 规模 ) M, ,而 且 有 
种 植 面积 X, ,而 且 后 者 与 % 的 关系 更 为 紧密 于 是 ,用 种 植 面积 X 作为 辅助 变量 ， 
代替 M; 的 位 置 进 行 比率 估计 ,可 能 会 有 更 好 的 结果 。 

{ 四 ) 以 其 他 变量 为 辅助 变量 的 比率 估计 

已 知 全 县 该 作物 的 种 植 面 积 总 共有 X = 30 525 凋 。 采 用 种 植 面积 为 辅助 变量 
的 估计 结果 为 : 


> 
之 = X 和 -= X 真 = 30 525 .257.1 - 877.85( 万 公斤 ) 
忌 § 940 
Ti 
Ee 
Vy -Rey 
NU 有 台 人 一 人) 


好 nm-1 


2 
_ 332(0:697) . 1 578 = 127.84( 万 公斤 ) 


s(¥) -MY wy) = 11.3( 万 公斤 ) 
评价 :与 前 面 几 种 方法 相 比 ,估计 量 的 估计 误差 最 小 ,估计 效果 最 好 。 究 其 原 
因 , 作 物 的 乡 产量 w 不 仅 与 该 乡 规模 (村 庄 数 ) AM; 有 关 , 更 与 该 乡 的 种 植 面积 r 有 


关 。 同 和 (yw - Mo3) 相 比 , > (yw -- Rx, 六 更 小 ,所 以 ,这 种 方法 在 本 例 中 不 仅 优 
于 简单 估计 和 加 权 信 计 , 也 优 于 以 群 规模 M; 为 辅助 变量 的 比率 估计 。 进 行 估计 时 
不 涉及 群 规模 的 大 小 ,所 以 既 可 以 用 于 群 规模 不 等 时 的 估计 ,也 可 以 用 于 群 规模 相 
等 时 的 估计 。 使 用 这 种 方法 的 条 件 是 要 掌握 辅助 变量 X 的 总 体 信息 , 并 在 调查 中 
能 够 获取 到 与 日 标 变量 关系 密切 的 辅助 变量 的 资料 。 

[ 例 6.4】 某 企业 欲 估计 上 季度 每 位 职工 的 平均 病假 天 数 。 该 企业 共有 8 个 
分 厂 , 现 用 不 等 概 整 群 抽样 拟 手 取 三 个 分 厂 为 样本 ,并 以 95% 的 置信 度 计算 其 置 
信 区 间 。 有 关 数 据 及 抽样 过 程 如 表 6.3。 
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表 6.3 8 个 分 厂 的 职工 人 数 资料 

















分 厂 编号 职 上 人 数 CME) 累积 区 间 
1 1200 1 一 1200 
2 450 1201 ~ 1650 
3 2 100 1 651 ~ 3 750 
4 860 3751 ~ 4610 
5 2840 4611 - 7450 
6 1910 7 451 ~ 9 360 
7 390 9 361 ~ 9 750 
8 3200 9 751 ~ 12 950 
由 于 n = 3, 采 用 PPS 抽样 ,在 数字 1 ~ 12 950 之 间 , 利 用 随机 数 表 随 机 抽取 


3 个 数 , 分 别 是 02 011, 07 972 和 10 281, 于 是 3 分 厂 .6 分 厂 和 8 分 厂 人 选 样本 。 用 
321,32,33 分 别 表示 三 个 分 厂 职工 的 病假 天 数 , 调查 结果 为 :y= 4 320,y。 = 
4 160, ys = 5 790。 

估计 过 程 如 下 : 


人 1 
174320 4160 5700 
)= 2.02( 天 ) 


2 00 "1 910 * 3200 
v(5) = D>- 3)? = 0.035 6( 天 ) 
其 置信 区 间 为 : 


2.02 + 1.96 V0.0356 = 2.02 + 0.37 
车 估计 全 企业 因 病 假 而 损失 的 人 日, 则 


Y= Moy = 12 950 x 2.02 = 26 159 


v(Y) = Miv($) = 12 9502(0.035 6) = 5 970 209 
其 置信 区 间 为 : 
26 159 + 1.96 v5 70 209 = 26 159 + 4 789 
评价 :对 于 群 规模 不 等 的 整 群 抽样 ,采用 不 等 概 PPS 抽样 ,可 以 得 到 总 体 目标 
量 的 无 偏 估 计 , 并 且 因 为 估计 量具 有 自 加 权 性 质 ,从 而 使 估计 量 和 估计 量 方差 都 有 
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比较 简明 的 形式 ,估计 的 效率 也 比较 高 ,是 值得 优先 考虑 采用 的 方法 。 
此 方法 的 使 用 条 件 是 ,在 抽取 样本 前 ,要 掌握 各 群 规模 M, 的 信息 。 此 外 ,抽样 
过 程 比 等 概 整 群 抽样 略 麻烦 些 。 





$6.4 总 体 比 例 的 估计 


采用 整 群 抽样 估计 总 体 比例 时 ,可 以 应 用 前 面 已 介绍 过 的 同样 技术 。 令 A; 表 
示 第 ; 群 中 具有 某 种 特征 的 单元 数 , p, = 您 是 具有 该 种 特征 的 单元 数 在 第 i 群 中 


的 比例 。 按 简单 随机 方法 抽取 包含 x 群 的 样本 ,利用 样本 信息 对 总 体 比 例 P 进行 
估计 。 





一 、 群 规模 相等 时 的 估计 
与 群 规模 相等 时 均值 估计 的 方法 相同 ,因为 比例 也 是 均值 , 即 





名 > |, 具有 某 种 性 质 
了 二 p = 0, 其 他 





p= Dp- 志 DA (6.35) 
是 总 体 比例 己 的 无 偏 估计 。 
式 中 , 户 为 样本 中 第 ; 群 具有 某 特征 单元 数 的 比例 ;AM 为 每 群 中 的 单元 数 。 








1-8 Sp -Py 
VP) = NI (6.36) 
利用 样本 资料 ， We V(p) 的 无 偏 估计 wv(p)。 
vw(p) = mS - py (6.37) 
二 、 群 规模 不 等 时 的 估计 


若 群 规模 M, 不 等 , 仍 采用 简单 随机 抽样 抽取 群 , 则 总 体 比例 的 估计 重 
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ZIA， 


P= 全 (6.38) 
Mm 
是 比率 估计 的 形式 。 
根据 比率 估计 的 性 质 ,其 估计 量 的 方差 为 : 
_ Sn, 一 PM,)? 
VN- 





a 
_f 2 MIP: Py 














= 二 . N= (6.39) 
式 中 ,M -= 二， Sm 为 总 体 中 群 的 平均 规模 。V() 的 估计 式 为 ， 
_f Da — PM:)? 
vp)= Wm TT 
-tM 2p >AM) (6.40) 


【 例 6.5】 某 居 民 小 区 有 41S 个 居民 小 组 ， 现 采 用 到 群 等 概 抽样 ， 随机 抽取 25 
个 小 组 为 样本 ,调查 中 的 一 项 内 容 为 估计 男 .女性 别 的 比例 , 表 6.4 资料 为 样本 中 














女性 的 分 布 试 以 %5% 的 置信 度 估 计 该 小 区 女性 比例 的 竖 信 区 间 , 并 同 简单 随机 
抽样 方法 进行 比较 。 
表 6.4 和 5 个 拓 民 小 组 总 人 数 及 女性 人 口 数 
群 (让 居民 数 (M,) | 女性 人 数 (A,) 群 (2) 居 虹 数 (M,) | 女性 人 数 (4A,) 

1 8 4 14 10 5 

2 12 7 15 9 4 

3 4 1 16 3 1 

4 5 3 17 6 4 

5 6 3 18 5 2 

6 6 4 19 5 3 

7 7 4 20 4 1 
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群 (7) 居民 数 (M4) | 女性 人 数 (4 | 群 (5) 居民 数 (M;) | 女性 人 数 (4i) 
8 5 2 21 6 3 
9 8 3 22 8 3 
10 3 2 23 7 4 
11 2 t 24 3 0 
12 6 3 25 8 3 
13 5 2 合计 151 72 


























发 料 来 源 ;Seheaffer 等 Elementary survey sampling ,264, PWS - KENT Publishing Company,1990. 


解 :这 是 群 规模 不 等 的 比例 估计 。 由 (6.38) 式 ,总 体 比例 的 估计 为 : 





A: 
p= 太一 = 各 = 0.477 
MM 
Misl 
由 于 总 体 的 M 未 知 ,用 样本 值 元 = 人 一 = 旨 = 6.04 蔡 代 .又 根据 (6.39) 
式 
1- ， 本 ， 
wp) = A) 
0.94 12.729 
25(6.04)3 * 25 ~ 1 “0-000 55 
故 置信 区 间 为 : 


0.477 + 1.96v 0.000 55 = 0.477 + 0.046 
如 果 采 用 简单 随机 抽样 方法 ,从 该 小 区 中 抽取 151 人 ,假定 调查 结果 与 表 6.4 
相同 , 即 其 中 女性 人 数 为 72 人 ,抽样 比 了 也 假定 相同 , 则 估计 量 的 估计 方差 为 ; 





wp) = Lpg 
n—1 
0.94 
= 810.477)(0.523) 
= 0.001 56 
于 是 可 以 计算 出 设计 效应 
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这 表明 ,在 此 项 内 容 的 调查 中 , 整 群 抽样 的 估计 效果 明显 地 好 于 简单 随机 抽 
样 。 
若 取 出 = 6.04, 还 可 以 进一步 计算 群 内 相关 系数 p。 
由 (6.12) 式 
1+ (MM- p= deff 
即 
1+(6.04— 1)p = 0.353 
解 得 
= 一 0.128 
群 内 相关 系数 为 负 表 明 群 内 差异 大 而 群 问 差异 小 * 有 一 些 变量 如 性 别 ,如 果 以 
家 庭 户 为 群 , 群 内 的 家 庭 成 员 有 男 \ 有 女 , 存 在 明显 差异 ,而 群 与 群 之 间 的 人 性 别 结构 
则 存在 很 大 的 相似 性 ,对 于 这 样 一 些 变量 进行 估计 , 整 群 抽样 往往 会 有 最 好 的 估计 
效果 。 


_ 0.353—1 
O75.04 


小 结 





本 章 介 绍 了 整 群 抽样 的 理论 及 不 同 条 件 下 整 群 抽样 的 估计 方法 。 整 群 抽样 有 
构造 抽样 框 相对 简单 .样本 单元 相对 集中 、 节 省 调查 费用 等 优点 。 整 群 抽 样 的 缺点 
是 估计 的 效率 比较 低 。 整 群 抽样 有 群 相等 和 不 相等 的 情况 ,在 群 不 相等 时 , 按 与 群 
大 小 成 比例 的 不 等 概 抽 样 抽 群 是 值得 考虑 采用 的 ,在 整 群 抽样 中 ,比率 估计 可 以 有 
效 地 提高 估计 的 效率 。 如 果 有 与 目标 量 关系 密切 的 辅助 信息 可 以 利用 ,对 于 提高 整 
群 抽样 的 估计 精度 就 更 有 帮助 。 

















本 章 附录 。 整 群 抽样 估计 量 性 质 的 证 明 





1.(6.11) 式 VD ~ SL + (M -1)p] 的 证 明 . 
证 明 : 
DY -= DY, ]? 
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-六 [ov - ?7 +2 -号 (Ye — Y)] 


ri 
= (NM — 1)S:+ (NM — Dag- 1)Sp 
= {NM ~- 1)S°[1 + (M — 1)p] 
故 有 
vYG) = 疡 V() 
1 一 
= A Nt Ri - YY 
_ 上 
上 sr (4 ~ Do] 
当 NM 很 大 时 , M 相对 于 NM 很 小 ,因而 NM - 1 与 NM -~ M 相差 不 多 , 故 
1- 
SD 3 + CM Dp] 
2.(6.13) 式 = 的 证 明 。 
56 十 1)s%, 
证 明 ; 
由 (6.10) 式 
nM 
2 人 > 2 Y, ~ Y)(Yx 了) 


2 MTDNM- 1S 








因为 


了 


Si = HRY 一 立 六 


es 


sn 本 
DY T= (NM - DSI1+ (M -~ 1)p] 
气 
于 是 
MON 一 1)S2 
1 MD (NM DB 
_ M{(N- 1)S?- (NM — 1)5? 
4 (MM-INM -DS 人 
当 NN 很 大 ,而 M 相对 于 NM 很 小 时 ,NM - 1 = NM - M, 则 可 将 上 式 写 为 
Si - S? 
PDS © 
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又 因为 
(NM - DS? = DY, -FY 
rs 


= Sma, _ TP + OY, -Fy 





=(N-lD)Ssz+NOM-T)SL (3) 
则 

sa = CNM- LS N(M- 1)S% 

(N-1) 
将 其 分 别 代 人 (1),(2) 式 , 便 有 

1 NMS: 、|_Sx 

Pol -mm Ds! 时 (4) 
由 (3) 式 

S -AL IN UDs+ N(M -1DSs2] 


NM -1 
因为 如 是 S; 的 无 偏 估计 ,s 是 S2 的 无 偏 估计 , 故 


8 = NatN — 1)s$ + N(M — 1)s%,] 


一 十 [3+ (M - 1) 所 J(N 很 大 时 ) (5) 
将 (5) 式 代入 (4) 式 ,得 


5 


PT B+M- Ds, 
习 题 


1. 若 欲 调查 城市 的 猪肉 人 均 消费 量 ,讨论 下 列 情况 下 采用 街道 作为 群 的 整 群 
抽样 是 否 合适 ,如 果 不 合适 ,你 认为 采用 什么 抽样 方式 好 。 

(1) 少数 民族 的 居住 比较 集中 

(2) 少数 民族 比较 均匀 地 分 布 在 各 条 街道 ; 

(3) 少数 民族 分 散在 各 街道 ,但 比重 不 同 。 

2. 带 句 厂 负责 对 它 的 用 户 进行 修理 ,其 修理 费用 每 季 结算 一 次。 该 厂 共 有 96 
家 用 户 , 各 拥有 不 同 带 锅 数 , 现 采 用 等 概 简单 随机 方法 抽取 20 家 为 样本 ,资料 如 
下 ; 
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工 | 锯 数 修理 费用 工厂 锯 数 修理 费用 
1 3 50 I 8 140 
2 7 110 人 2 6 130 
3 11 230 13 3 70 
4 140 14 2 50 
5 2 60 15 1 10 
8 2 280 16 4 60 
7 14 240 17 12 280 
8 45 18 6 150 
9 5 60 19 5 110 
10 9 230 20 8 120 

{1) 估计 每 一 带 句 的 平均 修理 费用 及 置信 区 间 (a = 0.05); 


(2) 根据 上 述 资料 估计 96 家 用 户 总 的 修理 费用 及 置信 区 饲 (a = 0.05); 

(3) 车 已 知 这 96 家 用 户 有 710 条 带 锯 ,利用 这 一 补充 信息 估计 总 的 修理 费用 
和 曾 信 区 闻 ; 

(4) 若 欲 佑 计 下 一 季度 的 每 带 锯 平 均 修理 费用 ,绝对 误差 A = 2, 试 问 应 抽取 
多 少 户 作 样本 。 

3. 邮局 欲 佑 计 每 个 家 庭 的 平均 订 报 份 数 ,该 辖区 共有 4 000 户 , 划 分 为 400 个 
群 ,每 群 10 户 , 现 随机 抽取 4 个 群 ,取得 资料 如 下 表 所 示 。 




















TT ~ 
群 各 户 订 报 数 (y,) 站 
1 1,2,1,3,3,2,1,4,1,1 19 
2 1,3,2,2,3,1,4.1,1,2 20 
3 2,1,1:1,1.3,2,1.3.1 16 
4 1,1,3,2,1,5,1,2,3,1 20 











试 估计 平均 每 户 家 庭 的 订 报 份 数 及 总 的 订 报 份 数 及 估计 量 的 方差 。 
4. 汽车 运输 公司 抽样 检查 在 使 用 的 车 辆 中 不 安全 轮胎 的 比例 ,在 175 辆 车 中 
抽 了 25 辆 ,其 不 安全 的 轮胎 数 如 下 : 


不 安全 轮胎 个 数 汽 
0 








二 








137 





要 求 估计 该 运输 公司 的 汽车 中 不 安全 轮胎 的 比例 及 估计 量 的 方差 。 

5. 某 工业 系统 准备 实行 一 项 改革 措施 。 该 系统 共有 87 个 单元 , 现 采用 整 群 抽 
样 ,用 简单 随机 抽样 抽取 15 个 单元 作 样本 ,征求 人 选单 元 中 每 个 工人 对 改革 措施 
的 意见 ,结果 如 下 : 











单 元 总 人 数 沈 成 人 数 
1 51 42 
2 62 53 
3 49 40 
4 73 45 
5 101 63 
6 48 31 
7 65 38 
8 49 30 
9 73 54 
10 61 45 
11 58 51 
12 52 29 
13 65 46 
14 49 37 
15 55 42 











(1) 估计 该 系统 同意 这 一 改革 人 数 的 比例 ,并 计算 估计 标准 误 ; 

(2) 在 调查 的 基础 上 对 方案 作 了 修改 , 拟 再 一 次 征求 意见 ,要 求 估计 比例 的 绝 
对 误差 不 超过 8% , 则 应 抽取 多 少 个 单元 作 样 本 。 

6. 某 集团 的 财务 处 共有 48 个 抽 层 ,里面 装 有 各 种 费用 支出 的 票据 财务 人 员 
欲 估计 办 公费 用 支出 的 数额 ,随机 抽取 了 其 中 的 10 个 抽 展 ,经 过 清点 ,整理 出 办 公 
费用 的 票据 ,得 到 下 表 资 料 : 


朱 层 编号 票据 数 ( M;) 费用 额 (y;, 百 元 ) 
1 42 83 














Sowsownwn 
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要 求 以 95% 的 置信 度 估计 该 集团 办 公费 用 总 支出 额 的 置信 区 间 。 
7. 为 了 便于 管理 ,将 某 林 区 划分 为 386 个 小 区 域 。 现 采用 简单 随机 抽样 方法 ， 
从 中 抽出 20 个 小 区 域 , 测 量 树 的 高 度 , 得 到 如 下 资料 : 











树木 株数 平均 高 度 树木 株数 平均 高 度 

区 域 编号 | (me) (全 , 尺 ) | 区 城 信 号 | (MD) (人民 ) 
上 42 6.2 11 60 6.3 
2 Si 5.8 12 52 6.7 
3 49 6.7 13 61 5.9 
4 S55 4.9 14 49 6.1 
5 47 5.2 15 | 57 6.0 
6 58 6.9 16 63 4.9 
7 43 4.3 17 45 5.3 
8 59 5.2 18 46 6.7 
9 48 5.7 19 62 6.1 
10 41 6.1 20 58 7.0 





























估计 整个 林 区 树 的 平均 高 度 及 95% 的 置信 区 间 。 

8. 某 市 建筑 行业 集团 共有 48 个 单元 ,有 载 货 汽车 186 辆 。 按 每 个 单元 的 车 辆 
拥有 量 成 比例 的 概率 进行 放 回 的 PPS 抽样 , 共 抽取 10 次 。 对 抽 中 单元 的 所 有 车 辆 
调查 季度 运 量 (单元 ; 吨 )。 样 本 数 如 下 表 所 示 ( 其 中 有 一 单元 被 抽 中 2 次 , 即 i = 3， 
7)。 试 估计 全 集团 的 季度 总 运 量 及 95% 的 置信 区 间 。 











单元 编号 | 车 炳 数 (M;) 单元 运 量 总 和 (y,) 平均 每 车 运 量 (y ) 
1 5 14 230 2 846 
2 8 21 336 2 667 
3 5 13 650 2730 
4 4 11 568 2 892 
5 6 15 216 2 536 
6 9 23 049 2 566 
7 5 13 650 2730 
8 3 7 .443 2 481 
9 7 16 723 2 389 
10 3 8 391 2 797 














9. 在 一 次 农村 调查 中 ,抽样 单元 是 包含 M 个 农场 的 群 , 当 抽取 ” 个 群 作 样本 
时 ,其 费用 是 C = 4tMon + 60 Vn, 其 中 + 是 调查 一 个 农场 所 花 的 时 间 ( 按 小 时 计 
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算 )。 如 果 这 一 调查 的 总 费用 是 2000 元 , 当 M =1,M =5,M=10,r=0.3, = 
2 时 ,n 的 数值 计算 如 下 : 




















M 

i 5 10 

0.5 400 131 74 

2 156 40 21 
-一 





样本 均值 的 方差 是 六 [1 + (M - 1)o] ,有 限 总 体 修正 系数 jpe 忽略 不 计 。 如 
果 M 在 1~ 10 之 间 ,p = 0.1, 试 问 当 (1)z = 0.5 小 时 ,(2)z = 2 小 时 时 ,M 多 大 
能 得 到 最 精确 的 结果 ?怎样 解释 两 个 结果 的 差别 ? 

10. 如 果 调 查 经 费 从 2 000 元 增加 到 5 000 元 ,你 认为 原来 最 优 的 M 是 增 大 还 
是 减 小 ,请 说 明理 由 。 

















在 实际 工作 中 ,系统 抽样 是 一 种 被 广泛 采用 的 抽样 方法 。 系 统 抽样 比 简单 随机 
负 样 易于 操作 ,但 抽样 误差 的 估计 比较 复杂 。 实 践 中 ,大 大 小 小 的 抽样 调查 ,尤其 是 
大 规模 抽样 调查 ,如 城乡 居民 住户 抽样 调查 人口 抽样 调查 , 农 产 量 抽样 调查 .产品 
质量 抽样 检查 等 ,都 普遍 采用 系统 抽样 本章 第 一 节 介 绍 系统 抽样 的 定义 .作用 和 
特点 ,第 二 节 介 绍 系统 抽样 主要 方法 ,第 三 节 介绍 等 概率 系统 抽样 的 估计 量 ,第 四 
节 介 绍 不 同 特征 总 体 的 系统 抽样 ,第 五 节 介绍 系统 抽样 的 方差 估计 。 


$7.1 引 癌 


一 、 定义 
系统 抽样 (systematic sampling) 是 将 N 个 总 体 单元 按 一 定 顺 序 排 烈 , 先 随机 抽 
取 一 个 单元 作为 样本 的 第 一 个 单元 , 即 起 始 单元 ,然后 按 某 种 确定 的 规则 抽取 其 他 
样本 单元 的 一 种 抽样 方法 。 系 统 抽样 中 最 简单 也 是 最 常用 的 规则 是 等 间隔 抽取 ,这 
种 系统 抽样 义 称 等 距 抽 样 。 由 于 这 种 抽样 方法 看 来 似乎 很 “机 械 ”, 所 以 系统 抽样 有 
时 也 称 为 机 械 抽 样 。 另 外 ,由 于 系统 抽样 提供 了 区 别 于 简单 随 机 抽样 的 另 一 个 随机 
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且 独 立 的 挑选 样本 单元 的 方式 ,有 时 也 被 称 为 伪 随 机 抽样 。 

系统 抽样 的 实际 应 用 非常 广泛 ,例如 工业 企业 为 检查 产品 质量 ,在 连续 生产 线 
上 每 隔 2 小 时 抽 选 一 个 或 若干 样品 进行 检验 ;农作物 产量 实测 或 对 农作物 害虫 进 
行 调查 ,对 一 大 片 农 田 每 隔 一 定 虹 离 (例如 2 平方 米 ) 抽取 一 小 块 进行 测量 或 调查 ; 
图 书馆 对 图 书 借阅 情况 进行 调查 ,在 一 堆 按 书 名 字母 排列 的 图 书目 录 卡 片 中 ,每 也 
一 定 厚度 (例如 1 厘米 ) 或 一 定 的 张 数 抽取 一 张 卡 片 等 等 ,都 是 系统 抽样 的 直观 案 
例 。 























二 、 系 统 抽样 的 一 般 方法 

{一 ) 直线 等 距 抽样 

假设 总 体 单元 数 为 N ,样本 容量 为 x ,NN 是 的 整数 倍 。 

首先 计算 抽样 间距 = 立 ,把 总 体 分 为 n 眉 , 每 段 上 个 单元 ,然后 ,在 第 一 段 的 
个 单元 中 随机 抽出 一 个 单元 ,假设 为 ">, 然 后 每 障 & 个 单元 抽出 一 个 单元 , 即 
r+ 名 ,r +2,…, 直 到 抽出 x 个 单元 。 抽 出 的 样本 是 由 以 下 编号 的 单元 组 成 : 
r+ (7— DRG = 1,2,…,n)。 如 图 7.1。 














人 人、 ~ 

r rik rt2g r+3g r+(n— Ll)g 
+ 本 

1 上 允 纺 委 (a-Dk 下 


图 7.1 一般 直线 等 焉 抽样 
例如 某 学 院 共 有 200 个 学 生 , 要 抽 10 个 学 生 做 样本 。 首先 计算 抽样 间距 


学 生 , 则 其 余 样本 单元 依次 为 第 23,43,63,83,103,123,143 ,163,183 位 学 生 。 
{ 二 ) 循环 等 距 抽样 


当 N 不 是 = 的 整数 倍 , 即 抽样 间 上 距 = 六 不 是 整数 时 ,实际 抽取 的 样本 量 是 


不 固定 的 (多 只 能 取 一 个 与 六 最 为 接近 的 整数 ) ,每 个 总 体 单元 人 样 的 概率 也 是 不 
等 的 ,这 时 用 直线 等 距 抽样 就 有 可 能 产生 偏 傅 。 为 了 使 样本 均值 为 无 偏 估计 ,可 以 
采用 循环 等 距 抽 样 方法 。 其 方法 是 将 N 个 总 体 单元 排 成 首尾 相 接 的 一 个 圆 ,抽样 
间距 放 取 最 接近 上 的 整数 ,从 1 到 NN 中 随机 抽取 一 个 随机 起 点 作为 起 始 单元 ,然后 


每 隔 抽取 一 个 单元 ,直到 抽 满 个 单元 为 止 。 
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例如 总 体 有 14 个 单位 , 拟 抽 取 = = 3, 则 大 = 六 = 4.7, 取 与 之 最 近 的 整数 


& = 5 然后 在 总 体 中 随机 抽取 一 个 单位 作为 起 点 ,假设 抽 中 3, 即 ~ = 3, 依 次 抽取 
r=3ir+&=8r+2k=13, 直 到 抽 满 于 是 ,样本 单位 的 顺序 编号 分 别 为 3,8， 


13。 抽 样 过 程 见 图 7.2。 
2 
“ARO 
O » 


* 从 


图 ?7.2 棋 环 等 距 抽 样 
{ 三 ) 不 等 概 系统 抽样 法 
不 等 概 系统 抽样 中 每 个 单元 的 入 样 概率 不 相等 。 最 常用 也 是 最 简单 的 不 等 概 
率 系统 抽样 xPS 是 系统 抽样 , 即 入 样 概率 ri 与 单元 大 小 M; 成 比例 的 系统 抽样 。 令 
Mo = 六 w ,表示 总 体 所 有 单元 大 小 的 总 和 ，, 风 
Ad 


Ti 一 2 Ms 
在 实际 中 ,实施 不 等 概率 抽样 最 简单 的 方法 是 代码 法 。xPS 系统 抽样 如 下 : 


先 将 单元 M: 值 黑 加 , 取 最 接近 2 的 整数 为 抽样 间距 ,从 [1,4] 中 随机 抽取 
一 个 整数 7, 则 代码 r,r + 下 ,pr + (n 一 1) 所 对 应 的 单元 即 为 样本 单元 。 

【 例 7.1] 设 总 体 由 10 个 行政 村 组 成 , N = 10 ,每 个 行政 村 的 人 数 M; 见 表 
7.1。 利 用 xPS 系统 抽样 抽取 n = 3 个 行政 村 。 





* 














隶 7.1 用 nPS 系统 抽样 抽 选 行政 村 
行政 村 编号 人 数 (M) ”| ”累计 人 数 抽 中 代码 
1 103 103 i00 
2 432 535 
3 96 631 
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行政 村 编号 。 | 人 数 (M) 累计 人 数 抽 中 代码 
4 246 877 723 
5 B84 961 
6 73 1034 
7 205 ] 239 
8 168 1 407 1346 
9 146 1 553 
10 317 1 870 
Mo = Sm = 1870,n = 3,k 一 各 = 623 
从 [1,] 中 随机 抽取 一 个 整数 ;二 100, 则 代码 ， - 100,r + 5 = 723， 


r+2& = 1 346 所 对 应 的 行政 村 入 样 ,其 序号 依次 为 1,4,8。 


在 xPS 系 统 抽样 中 ,对 于 特别 大 的 单元 一 定 要 注意 。 如 果 出 现 M; > & ,该 单元 


肯定 被 拍 人 样本 ,而 且 还 可 能 被 重复 抽 到 。 为 避免 这 科 


从 抽样 框 中 提出 直接 放 入 样本 ,再 对 由 剩余 单元 组 成 的 总 体 实施 抽样 。 


三 、 总 体 单元 的 排序 


系统 抽样 时 N 个 总 体 单元 的 排序 情况 大 致 有 以 下 三 种 。 
1. 按 无 关 标志 排 纵 。 即 各 单元 的 排列 顺序 与 所 研 


情况 ,可 以 事先 将 这 些 单元 


f 究 的 内 容 无 关 。 例 如 调查 学 


生 的 视力 状况 ,将 学 生 按 其 学 号 排序 ,学 号 与 视力 之 间 没 有 必然 联系 ;又 如 调查 某 


工厂 职工 平均 年 龄 , 按 职工 的 姓氏 笔划 排序 等 ,这 种 排队 抽样 类 似 于 简单 随机 抽 


样 ,也 称 为 无 序 系统 抽样 。 


2. 按 有 关 标志 排队 。 即 各 单元 的 排列 顺 厚 与 所 研 
调查 学 生 的 身高 ,将 全 部 学 生 按 人 校 体检 时 的 身高 由 高 到 低 排队 ;又 如 对 农 产 量 进 
行 抽样 调查 ,将 各 地 块 按 当年 估 产 或 前 几 年 的 平均 实 产 由 低 到 高 排队 。 这 种 排队 抽 





f 究 的 内 容 是 有 关系 的 。 例 





样 称 为 有 序 系统 抽样 ,可 以 使 抽取 的 样本 单元 更 具有 代表 性 , 减 小 抽样 误差 ,提高 


估计 的 效率 。 


3. 处 于 上 述 两 者 之 间 , 根 据 各 单元 原 有 的 自然 位 置 进行 排序 。 例 如 入 户 调查 
根据 街道 门牌 号 码 按 一 定 间 辽 抽取 ;工业 生产 质量 检验 每 隔 一 定时 间 抽 取 生 产 线 
上 的 产品 ;工厂 中 的 工人 名 单 按 原 有 的 工资 名 册 顺 序 等 这 种 自然 状态 的 排列 有 时 
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与 调查 标识 有 一 定 的 联系 ,但 又 不 完全 一 致 ,这 主要 是 为 了 抽样 方便 。 


四 、 系 统 抽样 的 优 缺 点 

作为 实践 中 最 常用 的 抽样 方法 之 一 ,系统 抽样 的 特点 显著 ,优点 和 握 点 同样 明 
显 。 

{一} 系统 抽样 的 优点 

系统 抽样 的 最 大 优点 是 简便 易 行 , 简 化 抽样 手续 。 具 体 来 说 ,系统 抽样 的 优点 
主要 体现 在 以 下 两 个 方面 。 

1. 简便 易 行 , 容 易 确定 样本 单元 ,其 他 概率 抽样 方法 在 抽取 样本 之 前 需要 对 
总 体 单元 编号 ,然后 才能 利用 随机 数 表 等 方法 抽取 样本 。 当 总 体 单元 很 多 时 ,编号 
与 抽 选 都 比较 麻烦 。 而 系统 抽样 所 需要 的 只 是 总 体 单元 的 顺序 排列 ,只 要 随机 确定 
一 个 (或 少数 几 个 ) 起 始 单元 ,整个 样本 就 自然 确定 ,在 某 些 场合 下 甚至 可 以 不 需 
要 抽样 框 。 例 如 对 公路 旁 的 树木 进行 病虫害 调查 ,确定 每 30 标 树 检查 一 棵 ,只 要 确 
定 了 起 点 的 被 检 树 ,每 隔 30 棵 检查 一 棵 即 可 ,根本 不 需要 事先 对 路 旁 的 所 有 树木 
编号 ,又 如 对 某 市 的 机 动车 辆 进行 调查 ,确定 抽样 比 为 1%, 则 可 在 00 ~ 99 中 随机 
抽取 一 个 整数 (如 63), 只 要 对 车 辆 牌照 号 林 两 位 为 63 的 车 辆 都 进行 调查 即 可 。 

系统 抽样 不 仅 实施 简单 ,容易 为 不 熟悉 抽样 的 非 专业 人 员 所 掌握 ,而 旦 还 因 其 
较 易 保留 抽样 过 程 的 原始 记录 ,便于 监督 和 检查 ,因此 在 一 些 大 规模 抽样 调查 中 ， 
如 在 多 阶段 抽样 的 最 后 一 阶段 或 二 阶段 抽样 中 , 经常 采用 系统 抽样 以 代替 简单 随 
机 抽样 ,普查 工作 中 也 可 以 配合 使 用 系统 抽样 ,美国 .日 本 、 印 度 等 国都 曾 从 普查 资 
料 中 系统 抽取 样本 再 进行 深入 调查 。 

2. 样本 单元 在 总 体 中 分 布 比 较 均 匀 , 有 利于 提高 估计 精度 。 如 果 调 查 者 对 总 
体 的 结构 有 一 定 了 解 ,可 以 利用 已 有 信息 对 总 体 单元 进行 排列 , 即 按 有 关 标 志 对 总 
体 单元 排序 ,这 样 采 用 有 序 系统 抽样 就 可 以 有 效 地 提高 估计 的 精度 。 

(二 ) 系统 抽样 的 缺点 

系统 抽样 也 有 其 突出 的 局 眼 性 ,具体 表现 为 以 下 两 点 。 

1. 如 果 单 元 的 排列 存在 周期 性 的 变化 ,而 抽样 者 对 此 缺乏 了 解 或 缺乏 处 理 的 
经 验 ,抽取 出 样本 的 代表 性 就 可 能 很 差 。 例 如 ,商店 销售 额 存在 明显 的 周期 性 变化 ， 
如 果 系 统 抽 样 的 样本 单元 间隔 正好 与 周期 变化 的 长 度 吻 合 , 不 采用 一 些 处 理 方法 
进行 调整 ,系统 抽样 的 样本 代表 性 就 很 差 。 

2. 系统 抽样 的 方差 估计 较为 复杂 ,一 般 系统 抽样 没有 设计 意义 下 的 无 偏 估计 
量 ,并 且 在 很 多 实际 应 用 中 所 采用 的 系统 抽样 都 不 是 严格 的 概率 抽样 ,这 就 给 系统 
抽样 方差 的 估计 带 来 很 大 的 困难 。 
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五 ,系统 抽样 整 群 抽样 和 分 层 抽样 的 关系 
企 系统 抽样 过 程 中 ,一 旦 起 始 单元 确定 ,整个 样本 就 确定 了 ,这 是 系统 抽样 有 











别 于 其 他 抽样 方法 的 一 大 特点 。 系 统 抽样 既 可 以 看 成 一 种 特殊 的 整 群 抽 样 , 又 可 以 
看 成 一 种 特殊 的 分 层 抽样 。 

以 一 般 的 等 距 抽样 为 例 ,假设 抽样 邮 距 为 ,总 体 单元 数 为 N = nk。 将 总 体 的 
六 个 单元 排列 成 上 行 z 列 ,如 表 7.2。 显 然 , 表 中 的 每 一 行 单元 都 是 系统 抽样 的 一 个 
样本 。 
表 7.2 系统 抽样 的 总 体 单元 

1 2 两 2 a 平均 

1 Y Yi 人 Yo-Darl 和 Yon-Darl El 

2 Y, Ya 罗 了 Yo-Daaa 人 Yo-bea| 天 

r YY, rr 全 Yo-Dtrr 人 en-Darr Ea 

到 Ya oe Yh 2 Ya 及 














为 方便 起 见 ,我 们 按照 行列 号 将 总 体 单元 重新 编号 , 令 Y= Yu_Derr(r = 


1,2,… ,此 ;j= 1,2,…, nn) ,结果 见 表 7.3。 














于 7.3 系统 抽样 的 总 体 单元 按 行列 重新 编号 
1 2 “ i 局 | 群 平均 
1 Yu Yn 轩 Y, 加 Yi Y 
2 Ya Ya» 加 Ys 局 Ya 7, 
了 yy Ya oo y Y, 
* hu Ye 区 Yh 素 
层 平均 Y 7 Y, 可 立 








如 果 将 每 一 行 单元 视 为 一 个 群 , 则 总 体 由 个 群 组 成 ,每 个 群 的 大 小 都 是 n。 
系统 抽样 就 是 从 Yi ~ Yi 中 任 选 一 个 单元 ,被 选中 单元 所 在 行 的 所 有 单元 就 构 
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成 系统 抽样 的 一 个 翌 本 。 显 然 ,每 个 群 都 是 一 个 可 能 样本 ,这 大 个 可 能 样本 被 抽 中 
的 概率 都 等 于 十 。 由 于 起 始 单元 Y,1 都 是 随机 抽取 的 ,因此 系统 抽样 可 以 看 成 从 
个 群 中 随机 抽取 ! 个 群 的 整 群 抽样 。 

同样 ,将 每 一 列 单元 视 为 一 层 , 则 总 体 由 个 层 组 成 ,每 个 层 的 大 小 都 是 3; 系 
统 抽样 就 是 从 第 一 层 ( Yu ~ Y41) 中 任 选 一 个 单元 , 则 后 面 各 层 中 相同 行 号 (~) 的 
单元 部 进入 样 本 。 系 统 抽样 可 视 为 从 每 个 层 中 取 一 个 单元 ,因此 是 一 种 分 层 抽样 ， 
但 是 由 于 样本 单元 在 各 层 的 位 置 相同 ,因此 系统 抽样 不 同 于 分 层 随机 抽样 。 














$7.2 ”等 概率 系统 抽样 估计 量 





本 节 先 讨论 最 简单 的 系统 抽样 的 估计 , 即 直 线 等 吃 抽 样 时 总 体 均值 了 的 估计 
问题 为 方便 讨论 ,假设 N = xk, 这 时 抽样 是 一 种 严格 意义 上 的 概率 抽样 。 


一 、 符号 说 明 
第 - 行 第 7 列 的 单元 指标 值 : Y,; 
Y= Yo Deiter = 1,2, hij = 2 
总 体 单元 数 :NN 
样本 单元 数 : 


系统 样本 平均 数 ; = 地)y， 


系统 样本 均值 估 计量 :五 ， 
层 均值 ,= 1.2， 
总 体 方差 :S? 


系统 样本 ( 群 ) 内 方差 :St = k(n—-1) 


样本 ( 群 ) 内 相关 系数 :ou 
_ ECys ~ Y)(yw ~ Y) 
Pw Fly -YY 
层 内 方差 ;Sa 


Si = RED -77 
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同一 系统 样本 内 对 层 均 值 离 差 的 相关 系数 :puv 
Ey - 3.)) (ym - 3.u) 
Ey, - 5.) 





Du = 


二 、 估 计量 
假设 起 始 值 为 *, 则 相应 系统 样本 的 平均 数 为 ; 
= Ty, = 1 了 {7.1) 
取 系统 样本 的 平均 数 作为 总 体 均值 了 的 估计 量 ， 
Dr = 二 1 疡 » (7.2) 
性 质 1 当 N -= 克 时 ,有 个 可 能 样本 : 
E(F) = is = 直 > Dy = 了 《7.3) 
因此 到, 是 无 偏 估计 量 。 
但 是 当 N 去 大 时 ,采用 直线 等 距 抽 样 得 到 的 & 个 可 能 样本 所 包含 的 单元 数 
不 全 相等 ,因此 y 是 有 偏 的 。 不 过 , 当 N 和 均 比较 大 时 ,其 偏 倚 不 会 很 大 ,可 以 忽 
略 不 计 。 如 果 采 用 循环 等 虐 抽 样 ,。 是 无 信 的 。 


三 、 估 计量 方差 的 不 同 表示 形式 
为 方便 起 见 ,以 后 均 假定 N = 丰 时 ,系统 样本 的 平均 数 去 , 作为 总 体 均值 的 
合计 是 无 偏 的 。 它 的 方差 按 定义 为 : 
V(3) = E(3%, ~ 7) = is, - 7) (7.4) 


下 面 给 出 方差 的 三 种 不 同 的 表示 形式 。 
性 质 2 ”用 样本 ( 群 ) 内 方差 S3。 表示 系统 抽样 估计 量 的 方差 : 





V5) = NF? - HDs, (7.5) 
式 中 ， 时 = 了 Li 立 袜 Co 了》 为 基体 广 关 ; 5? Rep > 
为 样本 ( 群 ) 内 方差。 


如 果 从 总 体 N 中 直接 抽取 样本 量 为 的 简单 随机 样本 , 则 总 体 均值 了 的 估计 
量 5 的 方差 
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- 加 
Vgm) = Ms? = fe 


式 中 ,S? 为 总 体 方差 ; 为 样本 量 ;7 为 抽样 比 。 
比较 等 距 抽 样 方差 V(F,) 和 简单 随机 抽样 方差 V(3,), 可 得 出 以 下 结论 : 


NF VC) - Vg) = (si — 8’) 
当 S&。 > 57, 即 等 距 样 本 内 方差 大 于 总 体 方差 时 ,系统 抽样 法 优 
于 简单 随机 抽样 ; 
有 | 当 Sw < S?, 即 等 中 样本 内 方差 小 于 总 体 方差 时 ,简单 随机 抽样 
优 和 于 系统 抽样 法 ; 
当 S&。 = S?, 即 等 距 样本 内 方差 等 于 兽 体 方差 时 ,系统 抽样 法 与 
简单 随机 抽样 法 抽样 效果 相同 。 

对 于 固定 总 体 ,总 体 方差 是 惟一 确定 的 ,因此 ,系统 样本 内 的 方差 S&。 越 大 ， 
系统 抽样 的 精度 越 高 .为 了 提高 系统 抽样 的 精度 ,总体 单元 的 排列 应 尽 可 能 增 大 样 
本 ( 群 ) 内 方差 。 

性 质 3 ”系统 抽样 可 看 做 一 种 特殊 的 整 群 抽样 ,系统 抽样 估计 晤 的 方差 可 以 
用 样本 ( 群 ) 内 相关 系数 ouw 表示 : 

V3) = SE (NA) + Cn ~ Dpww] (7.6) 
式 中 ,euw 为 样本 ( 群 ) 内 相关 系数 。 
EC =- 了) ~ Y) 
E(y; - YY 


,os 
2 HH Ty 7) 07.7) 








(na -1)ON-1)S” 
由 福 质 3 可 见 ,系统 样本 ( 群 ) 内 下 相关 越 大 , 即 系 统 样本 ( 群 ) 内 单元 越 相似 ， 
则 估计 量 方差 越 大 ,等 距 抽 样 精度 越 差 。 该 结论 与 性 质 2 的 结论 显然 是 一 致 的 。 
性 质 4 系统 抽样 可 看 做 - -种 特殊 的 分 层 抽样 ,系统 抽样 佑 计量 的 方差 可 以 
用 层 内 方差 S52, 和 pw 表示 : 


人 
V8) = Se (NA) + Cn- Dou] 07.8) 
式 中 , 8。 为 层 内 方差, St。 = 区 由 -下 袜 (~,:5., 为 展 的 值 ( = 1 
2,…,nn); pu 为 同一 系统 样本 内 对 层 均值 高 差 的 相关 系数 。 


Elyw ~ 3.,) (yw 一 了 


Pu = Ely ~ 3.) 
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= oo 可 (re — Fs) (7.9) 


比较 系统 抽样 方差 V(5,) 与 比例 分 配 的 分 层 随机 抽样 方差 Y( 丈 ) ,比例 分 配 
的 分 层 随 机 抽样 总 体 均值 估计 重 的 方差 


Vs 
Ye) = 1+(n ~ 1)po 


内 此 
当 puw >0 时 ,系统 抽样 的 精度 低 于 分 层 随 机 抽样 ; 
当 pus = 0 时 ,系统 抽样 的 精度 与 各 层 随机 抽取 一 个 单位 的 分 层 随机 
抽样 相同 ， 
当 puw < 0 时 ,系统 抽样 的 精度 高 于 分 层 随机 抽样 。 
【 例 7.2】 设 某 个 总 体 有 N = 32 个 单元 ,总 体 单元 排列 显然 有 稳定 上 升 的 趋 
势 。 我 们 要 在 产生 一 个 样本 量 为 4 的 等 距 样本 ,将 总 体 单元 排列 如 表 7.4, = 8， 
n = 4, 每 一 列 部 是 一 个 等 距 样 本 , 共 8 个 等 距 样 本 。 




















囊 7.4 N = 32, = 8,n = 4 等 臣 样 本 数据 
等 距 样 本 编号 
层 一 -下 层 均值 
1 2 3 4 5 6 7 8 

I 1 1 3 3 4 5 6 7 | 3.75 
下 7 8 8 11 12 14 16 16 |11.5 
焉 17 18 20 20 24 24 25 27 | 21.875 
N 27 28 30 31 34 34 36 38 | 32.25 

总 数 52 55 61 65 74 7 83 88 | 一 
































显然 , 层 内 有 正 相 关 , 前 4 个 样本 与 各 层 均值 的 离 差 都 是 正 数 ,后 4 个 样本 与 
各 层 均值 的 离 差 都 是 负数 ,由 性 质 4, 当 pw > 0 时 ,系统 抽样 的 精度 低 于 分 层 随机 
抽样 。 

层 内 方差 与 总 方差 分 别 为 : 


Su = LD, - 了 =11.5 


1 


s = NH1> Sy, F)? = 129.523 


?17=1 
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因此 ,简单 随机 抽样 均值 估计 的 方差 V(F)、 分 层 随机 抽样 均值 估计 的 方差 
V(yx) 以 及 等 中 抽样 均值 估计 的 方差 V(F,) 如 下 : 


4 
Vlys) = 下 (yw — Y= 王立 (7 ~ Y)2 = 9.452 
气 


Sy/N-n 


SwfN-n)_ .1.5 32-4. 
Vo) = (和 = 二 x 和 4=2.516 
,DN-no 32-4, 129.5232_ 
VO) = MS? = 7 x 4 = 28.333 


本 例 中 ,分 层 随机 抽样 和 等 距 抽样 都 比 简单 随机 抽样 更 有 效 ,而 分 层 随机 抽样 
比 等 距 抽 样 更 有 效 。 









































[ 例 7,3】 利用 例 7.2 的 数据 ,但 将 第 二 层 和 第 四 层 的 观测 值 次 序 颠 倒 ,数据 
见 表 7.5。 
表 7,5 第 一 屋 和 第 四 层 的 观测 值 次 序 牙 倒 后 的 等 距 样本 数据 
| 
层 等 距 样本 编号 层 均值 
1 2 3 4 5 6 7 8 
I 1 1 3 3 4 5 6 7 | 3.75 
I 16 16 14 12 11 8 8 7 |11.5 
亚 17 18 | 20 20 24 24 25 27 | 21.875 
T 38 36 34 34 31 30 28 27 | 32.25 
总 数 72 71 71 的 | 四 | 4 67 68 | 一 
显然 ,等 距 样本 内 数据 与 各 层 均值 的 离 差 有 正 有 负 。 例 如 第 一 个 等 距 样本 对 各 
层 均值 的 离 差 分 别 为 - 2.75,4.5，- 4.875,5.75。 该 样本 内 六 对 离 差 组 合 中 四 对 
的 乘积 是 负数 .此 外 ,每 个 等 距 样本 大 都 是 这 种 情况 。 因 此 ,由 性 质 4,pee < 0, 系 统 





抽样 的 精度 高 于 分 层 随机 抽样 。 
数据 顺序 的 这 种 改变 不 会 影响 简单 随机 抽样 均值 估计 的 方差 V(5,) 和 分 层 
随机 抽样 均值 估计 的 方差 V(F,)。 等 距 抽 样 均值 估计 的 方差 (ze ) 为 : 


V9) = El — YF = Ls Ty 
= 起 om — nY)? = 0.202 
本 全 中 ,等 中 扫 样 比 简 单 随机 扫 样 和 分 层 随 机 抽样 部 更 有 效 。 


由 上 例 可 见 , 相 对 于 分 层 随机 抽样 和 简单 随机 抽样 来 说 ,系统 抽样 的 效率 很 大 
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程度 上 取决 于 总 体 性 质 。 即 使 是 相同 的 总 体 数 据 ,对 于 不 同 的 单元 排列 顺序 ,就 有 
不 同 的 样本 ( 群 ) 内 方差 S&。 或 相关 系数 pw， 从 而 系统 抽样 估计 量 的 方差 也 就 不 
后 。 因 此 ,要 有 效 地 应 用 系统 抽样 ,必须 先 了 解 总 体 的 特征 。 

















$7.3 ”不同 特征 总 体 的 系统 抽样 


从 上 面 的 讨论 中 我 们 知道 ,系统 抽样 的 精度 不 仅 取决 于 总 体 方差 的 大 小 ,更 取 
决 于 总 体 单元 的 排列 顺序 。 这 一 节 我 们 进一步 研究 几 种 排列 特征 的 总 体 单元 的 系 
统 抽样 。 


一 、 随 机 次 序 排 列 的 总 体 

在 社会 经 济 抽样 调查 中 ,许多 现象 总 体 的 单位 是 随机 排列 的 ,比如 居民 家 计 调 
查 中 按 居 民 姓 氏 次 序 排列 的 总 体 单位 , 农 产 量 调查 中 按 地 理 区 域 顺序 排队 的 总 体 
单位 ,等 等 ,这 种 按照 无 关 标志 排列 的 总 体 单元 ,可 以 看 做 是 随机 排列 的 。 

对 于 一 个 有 限 总 体 ,简单 随机 抽样 的 方差 是 确定 的 。 而 系统 抽样 的 方差 还 取决 
于 单元 的 排列 顺序 ,对 于 一 个 特定 的 排列 ,就 有 一 定 的 数值 ,因此 它 是 不 稳定 的 ,可 
能 大 于 也 可 能 小 于 相应 的 简单 随机 抽样 的 方差 比如, N 个 总 体 单元 总 共有 N1 种 
不 同 的 排列 ,从 而 有 N! 个 不 同 的 系统 抽样 的 方差 ,但 可 以 证 明 这 N1 个 系统 抽样 
方差 的 平均 数 恰好 等 于 简单 随机 抽样 的 方差 。 即 

E(V(3%)) = V (Ds) 
因此 ,平均 来 说 ,系统 抽样 方差 与 简单 随机 抽样 方差 是 相等 的 ,在 这 个 意义 上 ， 
我 们 说 当 总 体 单元 按 葡 机 顺序 排列 时 ,系统 抽样 的 效果 等 价 于 简单 戎 机 抽样 。 

当 总 体 单元 按 随机 顺序 排列 时 ,就 可 以 采用 简 音效 机 抽样 的 方差 作为 系统 抽 
样 的 方差 估计 : 




















VW) = V5) = SES? (7.10) 
二 、 线 性 趋势 的 总 体 
(一 ) 线性 趋势 的 总 体 


若 总 体 单元 按 指标 值 从 小 到 大 顺序 排列 或 按 某 个 与 其 有 线性 相关 的 辅助 变量 
的 大 小 顺序 排列 ,此 时 指标 值 Y 与 单元 序号 ; 也 线性 相关 ,这 种 按 有 关 标 志 排列 的 
总 体 称 为 线性 趋势 总 体 。 如 图 7.3 所 示 。 
152 





妆 系统 抽样 


图 7.3 在 兵 有 线性 趋势 的 总 体 中 的 系统 抽样 


为 了 进一步 研究 这 类 总 体系 统 抽样 的 特性 ,我 们 先 假定 一 种 简单 的 线性 趋势 总 体 ， 
即 单元 指标 Y, 值 是 单元 序号 ; 的 线性 函数 , 即 Y, = a + bi(i = 1,2,…,NN), 经 过 
线性 变换 后 , 和 直接 假定 
Y = 二 二 12 

以 下 仍 用 Y; 表示 Y“;。 

下 面 比较 在 具有 线性 趋势 总 体 下 ,系统 抽样 的 方差 V(yw) ,简单 随机 抽样 的 
方差 V(3,) 与 分 层 随机 抽样 的 方差 V (3)。 

当 Y= i(i = 1,2,…,N) 时 ,有 


DY Di FNN+D 
DYri= Pie= LNGN + 1)(2N+1) 
故 总 体 均值 到 = 二 (N+ 1) 





人 1 
总 体 方差 Sx = 机 ND 7 NY) = BNCN + 
(7.10) 
从 而 简单 随机 抽样 的 方差 
V3) = ENS’ = 二 人 -DON+D (7.12) 


计算 分 层 随 机 抽样 的 方差 ,由 于 总 体 N 分 为 a 层 , 每 层 含 个 单元 , 且 每 个 单 
元 相差 1, 因 此 线性 趋势 总 体 中 各 层 方差 Sz 相同 ,因而 
3 = 十 4(k 1 1) 
出 村 考虑 的 分 层 随 机 抽样 每 层 中 只 抽 1 个 样本 单元 .是 按 比 例 分 配 的 , 故 
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V9) = As = (7.13) 
计算 系统 抽样 的 方差, 考虑 到 个 可 能 的 系统 样本 的 均值 , 按 > 的 不 同 取 什 


依次 都 相差 1, 因 此 应 用 式 (7.11) 有 

i ?P= B+ 
从 而 

V8) = 计 2(5 -Y= 二 (8 一 (7.14) 
比较 式 (7.12) . 式 (7.13) , 式 (7.14), 可 知 
VOI) EV (9y) 所 VCO) 

等 号 当日 仪 当 n = 1 时 成 立 。 

即 系统 抽样 的 方差 小 于 等 于 简单 随机 抽样 的 方差 ,但 大 于 等 于 分 层 随 机 抽样 
的 方差 。 因 此 ,一 般 地 ,对 于 线性 趋势 总 体 , 系 统 抽样 优 于 简单 随机 抽样 ,但 比分 层 
承 机 抽样 差 。 

直观 来 看 ,总 体 按 线性 趋势 排列 时 ,这 种 排列 的 系统 样本 内 方差 增 大 , 故 估计 
景 的 方差 小 于 简单 随机 机 样 的 方差 。 此 外 ,样本 容量 为 的 系统 样本 可 以 看 做 是 将 
总 体 划 分 为 n 层 ,每 层 柚 取 一 个 单位 的 分 层 抽样 。 所 不 同 的 是 ,系统 抽样 在 各 层 的 
样本 是 由 第 一 层 中 样本 单元 的 位 置 决 定 的 ,如 果 第 一 层 中 样本 单元 的 位 置 偏 低 ， 
将 导致 以 后 各 层 样本 单元 的 位 置 都 偏 低 ,样本 平均 数 也 偏 小 ;如 果 第 一 层 中 样本 单 
元 的 位 置 > 偏 高 ,将 导致 以 后 各 层 样本 单元 的 位 置 都 偏 高 ,样本 平均 数 也 偏 大 。 而 
分 层 随 机 样本 的 单元 在 户 中 的 位 置 是 随机 的 , 改 由 于 不 同位 置 对 指标 值 的 影响 可 
以 抵消 一 部 分 ,从 而 使 样本 平均 数 的 方差 进一步 减 小 。 

(二 ) 对 线性 趋势 总 体 的 系统 抽样 法 的 改进 

虽然 以 上 分 析 中 假设 的 严格 线性 趋势 排列 兽 体 在 实际 问题 中 很 难 成 立 ,但 其 
结论 在 定性 上 还 是 适用 的 。 针 对 实践 中 经 常 出 现 的 线性 趋势 总 体 ,有 必要 对 系统 抽 
样 进行 改进 ,从 而 提高 系统 抽样 的 精度 ,使 系统 抽样 法 有 可 能 达到 比分 层 随机 抽样 
更 高 的 效果 。 

对 线性 趋势 总 体 的 系统 抽样 的 改进 方法 主要 有 两 类 ,~ -种 是 抽样 方法 的 改进 ， 
如 中 心 位 置 抽样 法 、 对 称 系统 抽样 法 等 ; 另 一 种 是 估计 方法 的 改进 ,如 首尾 校正 法 。 

1. 中 心 位 置 抽样 法 。 当 总 体 单元 的 排列 顺序 旦 线性 趋势 时 ,起 始 单元 的 位 置 
偏 高 或 偏 低 会 直接 影响 整个 样本 的 代表 性 ,为 所 高 抽样 效率 ,Madow(1953) 建议 
采用 中 心 位 置 系统 抽样 , 即 切 始 样本 不 是 随机 抽 选 ,而 是 直接 取 第 一 段 的 上 个 单元 
中 处 于 中 间 位 置 的 单元 。 
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当 记 为 奇数 时 ,中 点 取 r= 生计 

当 为 偶数 时 ,中 点 到” = 专 或 > = 各 +1。 

这 种 抽样 方法 虽然 可 以 提高 精度 , 但 对 于 一 定 顺序 排列 的 总 体 ,样本 是 确定 
的 ,失去 了 抽样 的 随机 性 .尤其 对 于 连续 性 调查 ,这 种 抽样 会 带 来 不 利 影响 。 

例如 菜 学 院 共有 200 个 学 生 ,要 抽 10 个 学 生 做 样本 ,抽样 间距 一 人 = 人 0 = 
20。 如 果 采 用 中 心 位 置 抽 样 法 ,起 始 样 本 就 是 第 10 位 学 生 , 其 余 样 本 单元 依次 就 是 
第 30,50,70,90,110,130,150,170,190 位 学 生 。 

2. 对 称 系统 抽样 。 对 于 呈 线 性 趋势 排列 的 总 体 单元 ,Sethi 对 称 系统 抽样 和 
Singn 对 称 系统 抽样 都 有 助 于 提高 系统 抽样 的 精度 。 

(1) Sethi 对 称 系统 抽样 ,第 一 种 对 称 系统 抽样 方法 是 由 Sethi(1965) 提出 的 ， 
当 NN = nk,n 为 偶数 时 ,将 总 体 分 为 2 段 ,每 段 包含 2 个 单元 ,在 各 段 内 随机 选择 
与 两 端 等 距 的 电 个 单元 作为 样本 单元 ,假设 起 始 随机 数 为 >(1 扫 > 扫 上 ) ,人 样 的 单 
元 为 : 




















[r+2 关 20+ DE- r+1],j=0,1,2,,2 -1 








当 为 奇数 时 , 仍 按 以 上 步骤 进行 ,但 到 j = 对 于 上 -1 后 ,增加 擎 近 终端 的 一 
个 单元 [r + (2 -1)k]。 如 图 7,4。 


一 个 一 ”一 全 一 一 -全 一 
7 +1 rt(n—2)k mm-r+t 


交 吉文 六 a 
1 外 外 3k 悉 (nn-2)& (n-Dk 砚 


图 7.4 ”Sethi 对 称 系 统 抽样 
仍 是 从 200 位 学 生 中 抽取 10 位 做 样本 , 则 N = 200,# = 10, 抽 样 间距 = 
六 = 人 = 20。 候 没 随 机 抽 中 3 为 起 给 单元 数 , 则 样本 单元 位 数 依次 应 该 是 3,38; 
43,78;83,118;123,158;163,198。 
(2)Singn 对 称 系统 抽样。Singn(1968) 提出 另 一 种 对 称 系统 抽样 方法 , 当 N = 


艳 ,2 为 偶数 时 ,假设 起 始 随机 数 为 (1 < < 如) ,人 样 的 过 对 样本 单元 为 ， 








[r+iR,N-r—iR+1],; = 0,1,2, 1 


如 
”2 
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当 ， 为 奇数 时 , 仍 按 以 上 步 又 进行 ,但 到 /= 一 1 后 ,增加 靠近 中 间 的 一 


个 单元 r+ 一 b(n — DA。 如 图 7.5。 

















一 一 人 一 
十 站 {nn—2)8 -r+l 





村 的 (Cn~ Dk-r+t1 
7 破 一 r+1 
。 文 六 , 立 六 六， 禄 。 





1 下 3 训 (n= DE (nD (nD 3 
图 7.5 ”Singn 对 称 系统 抽样 
假设 从 300 位 学 生 中 抽取 15 位 做 样本 , 则 N = 300,n = 15, 抽 样 间距 = 


总 = 3 =- 20。 假设 随 机 抽 中 3 为 起 始 单 元 数 , 则 样本 单元 位 数 依次 应 该 是 3， 
298;23,278;43,258;63,238;83,218;103,198;123,178;143。 

3. 首尾 校正 法 。 首 尾 校 正法 通过 对 首尾 两 个 样本 单元 赋予 不 同 于 其 他 单元 的 
权 数 ,从 而 降低 对 线性 趋势 总 体 的 系统 抽样 的 估计 偏 倚 。Yates 首尾 校正 法 主要 应 
用 于 NN = 志 的 情况 ,Betlhouse 和 Rao 首尾 校正 法 应 用 于 N 关 芭 的 情况 。 

Yates(1948) 针对 N = 居 的 情况 ,提出 一 种 用 加 权 平均 计算 样本 均值 从 而 提 
高 精度 的 方法 .这 种 方法 的 原理 就 是 对 首尾 两 个 样本 单元 赋予 不 同 于 其 他 单元 的 
要 人 好 本 元 的 纺 为 ， 7, 则 

二 27 ~k-l1 











首 样本 单元 的 权 数 为 :zl = 二 这 (7.15) 
必 样 本 单元 的 权 数 为 :w= 二 于 浊 与 i (7.16) 
其 他 = -2 个 样本 单元 的 权 数 为 :ww = 一 ,7 = 2,…,n 一 1 (7.17) 
这 样 ， 首尾 校正 法 修正 后 的 总 体 均值 估计 最为， 

= Dy (7.18) 


当 人 即 假定 Y, 是 ;的 线性 函数 时 ,首尾 校正 法 的 均值 
信 计 重 是 完全 无 偏 的 ,完全 不 受 初始 值 的 影响 。 
Bellhouse 和 Rao(1975) 将 Yates 的 首尾 校正 法 推广 到 N 关 nk 的 情况 .根据 
Labiri 的 循环 等 距 抽 样 ( 见 7.1 节 ) ,保证 ”为 常数 然后 按照 总 体 单元 原 有 顺序 确 
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定 首尾 单元 ,对 其 赋予 不 同 于 其 他 单元 的 权 数 。 
如 果 初 始 单元 编号 > 较 小 ,满足 r+ (n 一 1) 势 N, 则 所 有 > 个 样本 单元 都 不 
经 过 单元 N ,相应 的 权 数 如 下 : 


Da 

首 样本 单元 的 权 数 为 :wt = 上 + 2 人 3 (7.19) 
元 21_2r+(n~- Di-(N 

必 样 本 单元 的 权 数 为 :we = 上 -2 车 半 (7.20) 

其 他 ，- 2 个 样本 单元 的 权 数 为 :u = 二 ,j= 2,…,n 一 1 (7.21) 


如 果 初 始 单元 编号 - 较 大 ,满足 > + (n - 1)& > N, 则 有 样本 单元 越过 单元 
NN ,假设 越过 单元 N 的 样本 单元 有 "2 个 ,相应 的 权 数 如 下 : 


2r + Cn De- CN11) -am 











es 1 
首 样本 单元 的 权 数 为 :el = 地 + 2(N -&) 
{7.22) 
1 27 + Cn DE- (N+1)- 2nd 
尾 样本 单元 的 权 数 为 :rw = 二 一 2(N —- &) 
(7.23) 
他 ，- 2 个 样本 单元 的 权 数 为 :my = ,j= 2 一 1 07) 











【 例 7.4] 总 体 有 23 个 单位 , 执 抽取 ”= 5, 则 = 们 = 4.6, 取 与 之 最 近 的 
整数 = 5 然后 在 总 体 中 随机 抽取 一 个 单位 作为 起 点 ,很 设 抽 中 ”= 19, 样 本 音 
位 的 顺序 编号 分 别 为 :19,1,6,11,16。 首 样本 单元 为 y1, 尾 单元 为 yo 求 相应 单元 
的 权 数 。 

解 :由 于 n2 = 4,N =23,n=5,k=5,r=19 


2r + Cn- Da- (N+1) 2nd 








首 样本 单元 yi 的 权 数 为 :wl = 小 + ZN 
=0.1222 
下 1 2r+(-Dt N+) -2 
尾 样本 单元 yg 的 权 数 为 :ww = 二 ZN RY " 
= 0.2778 


其 他 3 个 样本 单元 的 权 数 为 :0.2 
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三 、 周 期 波动 的 总 体 

周期 性 波动 是 指 总 体 单元 指标 值 按 其 顺序 呈 周 期 性 变化 。 例 如 商店 的 日 销售 
额 以 7 天 为 局 期 变化 ,一 般 周 末 为 销售 高 峰 期 ,周一 \ 周 二 下 降 ; 城 市 交通 量 以 24 
小 时 为 周期 变化 ,上 下 班 时 间 为 高 峰 期 。 典 型 的 周期 性 波动 如 图 7.6 所 示 。 


Ce 全 


| 半 周 期 抽样 间距 家 周期 抽样 间距 
图 7.6 ”周期 波动 总 体系 统 抽样 示意 图 


对 于 周期 性 波动 总 体 , 使 用 系统 抽样 一 定 要 特别 注意 .系统 抽样 的 估计 效果 与 
抽样 间距 & 及 单元 指标 值 的 变化 周期 直接 有 关 。 

如 图 7.6, 如 果 抽样 他 让 等 于 周期 (AC) 倍数 ,任意 系统 样本 内 的 单位 都 会 有 
相同 数值 ,此 时 系统 样本 的 代表 性 最 差 , 仅 相当 于 从 总 体 中 随机 抽取 了 一 个 样本 ; 
而 且 不 同系 统 样本 间 的 差异 很 大 ,会 导致 很 大 的 估计 方差 。 

如 果 抽 样 间距 等 于 半 周 期 (AB) 倍数 ,系统 样本 内 的 单位 会 依次 高 于 、 低 于 中 
线 , 系 统 抽样 会 得 到 无 偏 的 均值 估计 ,估计 方差 也 会 大 大 减少 。 

对 于 周期 倍数 与 半 周 期 倍数 之 外 的 系统 抽样 间距 ,抽样 的 效果 主要 取决 于 抽 
样 间距 与 周期 长 度 的 关系 。 现 实 中 ,对 于 含有 周期 影响 的 总 体 ,如 果 已 经 掌握 其 周 
期 结构 ,合理 选择 系统 抽样 间距 ,使 样本 中 包含 周期 中 许多 有 代表 性 的 指标 值 ， 
可 以 大 大 缩小 估计 量 的 方差 ,系统 抽样 的 效果 会 相当 好 .但 如 果 对 总 体 的 周期 结构 
不 其 了 解 ,简单 随机 抽样 和 分 层 随机 抽样 的 效果 可 能 会 更 好 。 


























$7.4 ”系统 抽样 的 方差 估计 


系统 抽样 法 的 缺点 之 一 ,就 是 很 难得 出 估计 方差 的 无 偏 估计 。 本 节 介绍 几 种 形 
式 相对 简单 的 方差 估计 方法 ,这 些 方差 估计 方法 只 能 进行 近似 估计 ,而 且 不 同 的 方 
法 适用 于 不 同 的 总 体 模型 。 
一 、 等 概 系统 抽样 的 方差 估计 
为 方便 起 见 ,将 系统 样本 观测 值 按 其 在 总 体 中 的 顺序 记 为 yi,y2,…, y, ,我 们 
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讨论 用 束 ,= 二 六 w 估计 总 体 均值 时 的 方差 V( 马 ) 的 估计 。 

{ 一 ) 系统 样本 来 自 随机 排列 总 体 

假设 系统 样本 来 自 随机 排列 总 体 ,系统 样本 可 近似 视 为 简单 随机 样本 ,从 而 可 
生计: 


=1-1f?- NR ti -57 《7.25) 


n—l 
{二} 系统 样本 分 后 了 机 撤 取 
如 果 把 系统 样本 看 成 从 各 层 抽取 两 个 单位 的 分 层 随机 抽样 ,可 采用 以 下 方法 。 
1. 从 第 二 个 样本 单元 开始 ,每 个 样本 单元 与 前 一 个 样本 单元 组 成 一 对 , 共 n 一 


1 对 ,第 ; 对 料 本 单元 的 方差 估计 为 二 (yt 一 这, 因此 对 n 一 1 个 二 (yt 一 








进行 平均 ,再 季 以 一 人 ,得 Y( 观 ) 的 估计 ， 








1 a 加 a 

= 加 fx 去 二 PE 一 区) 一 EEC 一 攻关 
(7.26) 

2. 设 为 偶数 ,将 样本 单元 按 顺序 两 两 分 成 一 组 , 共 组 ,第 i 对 样本 单元 的 方 


差 估计 为 (9 - yoi, 将 这 芭 个 方差 估计 值 进 行 平均 ,再 科 以 -一 降 ,从 而 得 到 





— yai1) 


(7.27) 


1- 晤 
va = 二 x 之 x 二 袜 (om - 322 1)* = 
{三 ) 系统 样本 来 自 线性 趋势 总 体 
假设 系统 样本 来 自 线性 趋势 总 体 , 即 了 = a + 6; + ei(i = 12 N)， 
E(ei) = 0,E(e) = 2,E(ex;) = 0, 进 行 Yates 首尾 校正 法 后 





Y= y+ y+ Cn Dh) (7.28) 
其 抽样 方差 无 偏 估计 为 : 
- —k-1)? ~ 2 + ys 
0 


当 和 不 再 是 无 
偏 估计 。 
159 





{ 四 ) 样本 量 为 = 的 系统 样本 分 成 m 个 子 样本 独立 抽取 
样本 量 为 的 系统 样本 分 成 m 个 子 样本 独立 抽取 ,每 个 子 样本 仍 用 系统 抽样 


法 ,样本 量 为 n= 者 ,抽样 间距 为 & = mk, 每 个 子 样本 的 起 始 值 独立 抽取 。 记 第 a 
个 子 梯 本 的 均值 为 却 , 总 体 均值 的 估计 值 为 : 
立 = 十 > (7.30) 


mt 


则 V (ys,) 的 估计 是 ; 


vs 二 一 


DY (7.31) 
由 = 2 时 、 ay 

上 述 mm 个 子 样 本 的 抽取 是 相 下 独立 的 ,样本 单 泡 也 有 可 能 重复 ,所 以 可 以 采 
取 将 样本 僵 为 (= mn) ,抽样 间隔 为 (= 各 } 的 系统 样本 分 成 wm 个 系统 子 样 
本 ,每 个 子 样本 的 样本 量 为 ,间隔 为 。 但 这 样 的 子 样 本 相互 不 独立 ,vs 也 不 再 
是 无 偏 的 了 .这 种 方法 称 为 交叉 子 样本 法 ,也 称 随机 组 法 。 

以 上 估计 方法 大 都 是 建立 在 一 定 的 假设 模型 之 上 的 ,不 同 的 模型 反映 不 同 特 
征 的 总 体 。 因 此 ,在 实践 中 只 有 所 研究 的 总 体 符合 假设 模型 时 , 才 可 以 用 相应 的 抽 
样 方差 公 式 来 估算 系统 抽样 方 关 。 

一 般 情 况 下 ,对 于 随机 排列 总 体 ,以 上 估计 方法 的 效果 都 不 错 ,但 简单 随机 抽 
样 的 方差 估计 vi 最 简单 , 故 为 最 佳 选择 对 于 线性 趋势 总 体 ,os 和 vs 的 效果 最 好 ， 
号 相对 更 通用 于 样本 贡 较 小 的 情况 ,对 于 周期 波动 总 体 ,上 述 估计 量 者 不 太 理 想 。 
当 抽 样 间距 为 周期 信 数 时 ,这 些 估计 量 都 亿 小 ;而 当 抽样 间距 为 半 周 期 奇数 售 时 ， 
这 些 估计 量 又 都 能 大 。 

如 果 对 总 体 背景 不 其 了解, 建议 采用 vo 和 wa。 这 两 个 估计 量 普遍 适用 于 随机 
排列 线性 趋势 和 周期 波动 总 体 ,而 且 数 果 也 不 错 。 

共 于 交叉 子 样本 的 方差 估计 重 然 也 适用 于 各 种 类 型 的 总 体 ,但 实际 操作 并 不 
方便 ,而 且 对 于 线性 趋势 总 体 和 自 相关 总 体 效果 也 不 是 很 好 .此 外 ,使 用 交叉 子 样 
本 法 时 ,抽取 的 系统 样本 个 数 不 能 太 多 ,所 以 会 带 来 经 济 效率 报 失 。 


mp 


二 、 不 等 概 系统 抽样 的 方差 估计 
以 上 几 节 介绍 的 系统 抽样 法 都 足 等 概 系 统 抽样 ,每 个 单元 的 入 样 概率 是 相等 
的 ,但 在 实际 应 用 中 ,不 等 概 系统 抽样 的 应 用 也 很 广泛 .不 等 概 系统 抽样 结合 了 系 
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统 抽 样 方便 易 行 和 不 等 概 抽样 的 高 效 闪 ,是 不 放 回 不 等 概 抽样 方法 中 最 受 欢迎 的 
方法 之 一 。 

不 等 慨 系统 抽样 中 每 个 单元 的 人 样 概率 不 相等。 对 于 按 一 定 顺 序 排列 的 NN 个 
总 体 单元 ,假设 lr! (i = 1.2， .N) 是 一 组 人 样 概率 ， = = no 不 等 概 系统 


抽样 的 一 般 方法 就 是 先 在 [0,1] 区 间 内 随机 机 到 一 随机 数 , 则 满 是 以 下 条 件 的 总 
体 中 的 第 io, 记 ,i2,…, 训 1 个 单元 即 为 抽 中 的 样本 单元 。 


bi < 
当 页 之 1 时 ,抽样 是 产 格 不 放 回 的 。 
(一 ) 估计 量 及 其 方差 
对 于 不 等 概 系统 抽样 ,对 总 体 总 和 Y 的 估计 可 采用 通常 不 放 回 的 不 等 概 抽样 
中 的 Horvitz - Thompson 估计 量 : 


Yr = 3 兰 (7.32) 
后 
对 于 xPS 系统 抽样 ,有 
Yr = i> 这 (7.33) 


rr 是 无 偏 的 ,其 方差 可 表达 为 ; 





VY( Zr) = >! a 12 YY, (7.34) 
当 国 定时， 轩 扩 

V(r) = SS ny) ;这 - 区 (7.35) 
(二 ) 不 等 概 系统 抽样 的 方 娄 估计 


不 等 概 系统 抽样 对 总 体 总 和 Y 的 估计 可 采用 不 放 回 的 不 等 概 抽样 中 的 
Horvitz ~ Thompson 估计 量 六, 但 由 于 x 的 计算 极为 复杂 , 且 有 可 能 为 零 , 其 方 
差 估计 式 显然 并 不 适 于 系统 样本 下面 我 们 介绍 几 种 不 等 概 系统 抽样 的 方差 估计 
方法 。 

1. 是 将 不 放 回 的 xPS 系统 样本 作为 放 回 的 PPS 样本 处 理 ,可 得 到 以 下 的 方差 
估计 形式 ; 

We < 2 ny 二 
v6 = a -Yr) =- aA > bin) (7.36) 
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2. 因为 实际 抽样 是 不 放 回 的 ,为 此 应 考虑 乘 以 有 限 总 体 修正 系数 1 - f。 由 于 
这 里 的 单元 实际 上 是 不 平等 的 ,因此 玫 不 是 简单 地 等 于 薪 。 我 们 使 用 f 的 以 下 代 
计 : 





了 = ion 
因而 得 到 方差 估计 量 的 - -种 方式 ; 


i 


1- 
v7 = (1- Hv = 人 (7.37) 


3. 用 相 邻 样本 单元 差 值 的 平方 和 来 表示 方差 ， 这 里 用 "全 代替 等 概率 情形 的 
入 ,得 到 


1 -他 ny _ ny 
nn DA (加 -1 ) (7.38) 
-了 702i _ T2771 2 
3 与 这 (和 Toi Til ) (7.39) 


4. 将 析 本 量 和 的 系统 样本 随机 分 成 m 个 子 样本 ,每 个 子 样本 样本 量 为 x“ = 
如 , 记 第 a 个 于 样本 对 总 和 的 HT 估计 为 : 





名 = 如 > 人 (7.40) 
则 不 等 概 系统 抽样 方差 的 估计 是 
Ti0 = zDD 一 Yr)? (7.41) 


同样 ,以 上 估计 方法 适用 于 不 同 特征 的 总 体 。 

对 子 随机 排列 总 体 ,以 上 估计 方法 的 效果 都 不 错 ,v7 为 较 好 选择 。 对 于 线性 趋 
势 总 体 , vs 和 vs 的 效果 最 好 ,vs 相对 更 适用 于 样本 量 较 小 的 情况 。 与 等 概 系统 抽 
样 相似 , vio 的 效果 不 太 理想 ,一 般 不 推荐 使 用 。 


小 结 


本 章 介绍 了 实践 中 最 常用 的 系统 抽样 方法 。 系 统 抽样 既 可 以 看 成 是 一 种 特殊 
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的 整 群 抽样 ,又 可 以 看 成 是 一 种 特殊 的 分 层 抽样 , 它 的 最 大 优点 是 简便 易 行 ,此 外 ， 
在 了 解 总 体 特征 的 前 提 下 ,有 效 地 应 用 系统 抽样 还 可 以 得 到 很 高 的 精度 ,反之 ,如 
果 缺 乏 对 总 体 的 认识 ,比如 直接 对 隐藏 有 周期 性 波动 的 总 体 进行 等 距 抽 样 ,得 到 的 
系统 样本 的 代表 性 可 能 会 很 差 。 
般 地 ,对 于 线性 趋势 总 体 ,系统 抽样 优 于 简单 随机 抽样 ,但 比分 层 随机 抽样 
其 ,针对 实践 中 经 常 出 现 的 线性 趋势 总 体 ,有 必要 对 系统 拍 样 进行 改进 ,改进 后 的 
系统 抽样 有 可 能 达到 比分 层 随 机 抽样 更 好 的 效果 。 
系统 抽样 的 方差 估计 较为 复杂 ,- - 般 系 统 抽样 难以 找到 设计 意义 下 的 无 偏 估 
计 芝 系统 抽样 方差 的 近似 估计 方法 很 多 ,但 这 些 方法 都 有 各 自 适用 的 总 体 模型 。 
在 实践 中 无 论 是 选择 系统 抽样 方法 ,还 是 确定 系统 抽样 方差 的 估计 方法 ,都 有 必要 
先 了 解 所 研究 总 体 的 特征 。 





























本 章 附 录 。 不 同 特征 总 体系 统 抽 样 的 性 质证 明 





1. 证 明 性 质 2: 用 样本 ( 群 ) 内 方差 $:。 表示 系统 抽样 估计 量 的 方差 : 
V(Y,) = {NDs 一 oa Ds, (7.5) 





式 中 ,5? = 二 二 阅 (9s - 也) 为 总 体 方差 ;58。 = 有 CT 3 
怠 站 为 样本 ( 群 ) 内 方差。 
证 明 :将 总 体 平方 和 按照 全 部 可 能 的 系统 样本 ( 表 7.2 中 的 行 ) 进行 分 解 ,得 到 


(N-1)S2 = DD 一 了 7 
3 二 Ea 
= 2 P+ 2 -3)? 
= = 天, - 了 7)2+ D0, - 坊 》 
根据 V(3) 定义 , 且 磊 = N, 得 
V{3y) = De 一 D0 ok 
= (N=Do. k(n- Do 
N N wy 
is 
式 中 ,S& = 0 人马 2 一 台 ,为 样本 ( 群 ) 内 方差。 
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2. 证 明 性 质 3: ”用 样本 ( 群 ) 内 相关 系数 um 表示 系统 抽样 估计 量 的 方差 : 


Ve) = SE (NA) a Doom] (7.6) 
式 中 ,pow 为 样本 ( 群 ) 内 相关 系数 。 
ECy, ~ Y)(ym 一 了 ) 
Am 一 Ely, - YY 
-DN Ym 7) 0.7) 
证 明 : 由 于 系统 抽样 可 以 看 做 是 一 种 特殊 的 整 群 抽样 ,而 且 群 的 大 小 相等 。 因 
此 ,可 以 直接 利用 整 群 抽 样 的 公式 表示 。 由 (6.11) 式 , 整 群 抽样 总 体 均值 的 估计 量 
5 的 方差 可 表示 为 : 
lf, NM-l .wo, _ 
VF) = 二 MN 二 S [LI+(M-Dp] 




















系统 抽样 与 整 群 抽样 的 参数 对 照 见 下 表 ; 
总 休 | ” 属 内 总 体 均值 宝 内 相关 
| 单元 数 。 | 单元 数 。 | 总 体 群 数 | 样本 群 数 | 合计 重 | 系数 
系统 狂 样 | 。 入 了 1 入 | 
整 群 抽样 NM M | AN nn 立 








因此 有 V(35) = 至 (20 + Gn -Dp 
3. 证 明 性 质 4: 系 统 抽样 估计 量 的 方差 可 以 用 层 内 方差 S2。 和 pu 表示 : 


ve) = Se (X32) 


式 中 , S3 为 展 内 方差:S2。= RD 了 2 (yo - 7.,;pu 为 同一 系统 样本 
内 对 层 均 值 高 关 的 相关 系数 。 
_ Ey -3.) (yn ~ He) 
Pe Elys — 3.) 


= 二 Di) yr — Ben) (7.9) 
证 明 :由 于 系统 抽样 可 看 做 是 一 种 特殊 的 分 层 抽样 ( 见 表 7.2) ,从 每 层 的 固定 
位 置 抽取 “个 单元 的 分 层 抽样 ,而 且 各 层 大 小 相等 。 记 第 ; 层 的 均值 为 ; 
B= 二 六 一 12， 


系统 样本 对 层 均值 离 差 的 相关 系数 ; 
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1+ (n ~- 1)puw] (7.8) 





_ EC(yy -3.7) (ym — 3.u) 
Po Ely, - 3.;) 

= es 下 (mu 一 D1) 
根据 (7.4) 式 ， 

V(3s) = ts.- 7 
两 边 同 乘 以 wk, 有 





= [5] 
= 之 之 (和 9 +2 2 5 ) (ym -也 四) 


= nk—1)s an DOE LD) Saopos 
= (N—n)S2y + (n -1)(N - n)S2 pug 
因而 
Vw) = (NR) + (Dou] 
习 题 


1. 系统 抽样 设计 的 原理 是 什么 ?系统 抽样 与 整 群 抽样 .分 层 抽样 的 关系 如 何 ? 
2. 假定 系统 样本 的 平均 数 为 yw , 试 证 明 : 
(DD VB) = (Ds? 四 (alse., 


式 中 , 3? 为 总 体 方差 ;S52 = 0 i DE 过 为 样本 内 方差。 


(2) 在 相同 样本 量 的 情况 下 , 当 且 仅 当 Sx。 > S? 时 ,系统 抽样 法 优 于 简单 随 
机 抽样 。 
3. 回答 下 列 问题 : 
(1) 某 班级 共 40 人 , 若 样本 量 x = 7, 随 机 起 点 x = 5, 请 用 循环 等 距 抽 样 方法 
列 出 样本 单元 序号 。 
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(2) 某 班 级 共 35 人 , 若 样 本 量 ”= 7, 随 机 起 点 x = 5, 请 用 Sethi 对 称 系统 抽 
样 和 Singn 对 称 系统 抽样 列 出 样本 序号 。 
4. 某 地 的 360 户 (编号 1 ~ 360) 的 总 体 ,在 档案 中 按 户 主 的 姓氏 字母 次 序 排 
列 , 下列 号 码 是 户主 为 汉族 的 住户 的 号 码 : 
28,31 ~ 33,36 ~— 41,44,45,47,55,56,58.68.69,82,83,85,86,89 ~ 94， 
98,99,10]1.107 ~ 110,114,154,156,178,223,224,296,298 ~ 300， 
302 ~ 304,306 ~ 323,325 ~ 331,333,335 ~ 339,34l,342 








为 了 估计 户主 为 汉族 的 件 户 在 全 部 住户 中 所 占 的 比重 ,每 8 户 抽 1 户 ,取得 一 
个 等 距 样本 。 试 将 这 一 等 距 样 本 的 精确 度 与 同样 含量 的 简单 随机 样本 的 精确 度 加 
以 比较 。 

5. 有 三 个 紧邻 地 区 ,其 居民 分 别 是 汉族 、 回 族 和 蒙古 族 。 还 有 一 本 最 近 的 居民 
册 , 册 内 每 一 户 的 人 是 依 下 列 顺序 登记 的 :丈夫 妻子 孩子 ( 按 年 龄 排列 ) .其 他 人 ， 
各 户 是 治 街道 按 顺 序 排列 的 ,每 户 平均 有 5 口 人 。 觅 种 抽样 方案 : 

(1) 在 户口 册 中 每 5 人 抽 1 人 ,可 以 得 到 一 个 系统 样本 ; 

(2) 按 20% 的 比例 抽取 一 个 简单 随机 样本 。 

现在 要 从 这 两 种 样本 中 选择 一 种 样本 。 在 下 述 的 三 种 指标 中 ,你 认为 娜 一 种 指 
标 采用 等 距 样本 有 和 希望 取得 更 好 的 精确 度 呢 ?并 请 说 明理 由 。(1) 汉族 所 占 的 比 
例 ;(2) 男性 所 占 的 比例 ;(3) 孩子 所 占 的 比例 。 

6. 在 一 条 街 上 13 户 的 户口 册 中 ,将 所 有 的 居民 列 成 下 表 (M 为 男性 成 人 ;为 
女性 成 人 ;m 为 男孩 ;f 为 女孩 ) : 

为 了 估计 下 列 各 项 指标 :(1) 男性 所 占 比例 ;(2) 孩子 所 占 比例 ;(3) 具有 某 种 
职业 的 住户 中 人 员 的 比例 (1,2,3,12,13 这 几 户 是 职业 性 住户 )。 现 从 每 5 个 人 中 抽 
1 人 得 到 一 个 系统 样本 ,又 按 20% 的 比例 抽取 一 个 简单 随机 样本 ,请 比较 这 两 种 样 
本 的 方差 ,这 些 结果 是 否 说 明 习 题 5 中 你 的 回答 是 正确 的 ?系统 样本 的 排列 方法 是 

















每 户 从 上 到 下 依次 排列 。 
1 2|3[41516171819110Trmaho 
Mi|MMlMxMlMhxllxw 和 ld 
F |F|FTEFETF|EFETF|EFTF ETE ER 
f f | mm mi el 
mm | mm | f | mm 
f f f m 
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7. 假设 总 体 , 相应 指标 值 排列 顺序 为 1,2,3,4,5,6,7,8,9,10,11,12,13,14， 
15。 

《1) 考虑 n = 3 的 直线 系统 抽样 ,计算 系统 抽样 的 实际 方差 ,与 样本 量 相同 的 
简单 随机 抽样 进行 比较 。 

(2) 若 要 求 抽样 问 距 上 = 4, 样 本 均值 是 否 为 总 体 均值 的 无 偏 估 计 ? 它 在 何 时 
有 偏 ? 何 时 无 偏 ? 

8. 检查 其 书稿 上 的 错字 ,每 5 页 检查 一 页 上 的 错字 数 , 系统 抽取 30 页 样品 后 
的 检查 结果 如 下 : . 

















10 8 6 5 9 8 8 5 9 9 
9 10 4 3 1 2 3 4 0 6 
3 5 0 3 0 0 4 0 8 0 





























(1) 试 估计 这 本 书稿 的 平均 错字 数 ; 
《2) 用 合并 层 方法 估计 抽样 方差; 
(3) 用 连续 差 方法 估计 抽样 方差 ; 
《4) 用 交叉 子 样本 法 估计 抽样 方差 。 
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王 一 一 





整 群 抽样 具有 样本 比较 集中 的 特点 ,因此 它 可 以 节省 调查 费用 ,而 且 便 于 组 织 
实施 ,回答 率 通常 也 较 高 ,但 是 由 于 群 内 单元 通常 具有 相似 性 (表现 为 群 内 相关 系 
数 大 于 零 ) ,尤其 是 当 群 比较 大 时 ,人 们 自然 会 想到 没有 必要 对 群 内 所 有 单元 都 进 
行 调查 ,而 是 对 群 内 单元 进行 再 抽样 ,对 部 分 被 抽 中 的 单元 进行 调查 ,这 就 是 实际 


工作 中 常用 的 多 阶段 抽样 。 
本 章 共 分 四 节 


,第 一 节 将 介绍 多 阶段 抽样 的 定义 、 作 用 以 及 推算 原理 ,第 二 节 





介绍 初级 单元 大 小 相等 时 两 阶 颂 抽样 估计 量 及 其 性 质 ,第 三 节 介绍 初级 单元 大 小 
不 等 时 两 阶段 抽样 估计 量 及 其 性 质 ,第 四 节 介 绍 样本 量 的 确定 以 及 多 阶段 抽样 的 


问题 。 


在 一 项 某 市 居 





ol 


§8.1 3 引 


民 对 香皂 颜色 喜好 的 调查 中 ,设计 者 打算 采用 人 户 调查 的 方式 。 


为 节省 差旅费 ,希望 样本 能 够 比较 集中 ,因此 准备 采用 整 群 搞 样 方案 设计 者 手头 


有 一 份 全 市 各 行政 
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区 所 属 的 街道 名 单 。 如 果 采 用 整 群 抽样 , 以 街道 作为 抽样 单元 





( 群 ) 进行 抽样 ,并 调查 样本 街道 所 


有 的 居民 户 , 则 群 内 调查 的 工作 量 太 大 ;如 果 以 


居委会 作为 抽样 单元 ( 群 ), 则 群 内 调查 的 工作 量 会 小 得 多 ,但 以 居委会 作为 抽样 单 
元 ,需要 事先 掌握 各 街道 下 属 居委会 的 名单 。 

由 于 时 间 和 经 费 的 限制 ,编制 全 市 的 居委会 名 单 已 经 来 不 及 了 ,设计 者 考虑 对 
上 面 的 方案 进行 一 些 改变 ,首先 ,他 决定 只 抽取 部 分 街道 并 建立 其 所 属 的 居委会 名 
单 ,并 抽出 部 分 居委会 ;其 次 ,他 觉得 对 样本 居委会 中 的 每 户 家 庭 都 进行 调查 不 仅 





费时 而 且 没 有 必要 ,因此 决定 只 调查 其 中 的 部 分 居民 户 。 














经 过 修改 后 的 方案 是 ,首先 对 街道 进行 抽样 ,在 被 抽 中 的 街道 中 分 别 建立 所 属 











的 居委会 名 单 并 分 别 抽出 部 分 居 


会 ,在 被 拍 中 的 居委会 中 抽取 部 分 居民 户 作为 





样本 并 进行 调查 。 这 个 方案 的 抽样 是 分 三 个 阶段 进行 的 , 即 先 抽出 样本 街道 ,再 从 





阶段 抽样 的 方法 。 


一 \ 定 义 与 作用 
(一 } 多 阶段 抽样 的 定义 
先 在 总 体 个 单元 (初级 单元 ) 中 





中 抽出 样本 居委会 ,最 后 从 样本 居委会 中 抽出 样本 居民 户 。 这 时 的 抽样 就 运用 了 多 





b 抽 出 个 样本 单元 ,并 不 对 这 个 样本 单元 中 的 所 











有 下 一 级 单元 (一 级 单元 ) 都 进行 调查 ,而 是 在 其 中 再 抽出 车 干 个 二 级 单元 并 进行 
调查 。 这 种 抽样 方法 称 为 二 阶段 抽样 。 间 样 的 道理 ,还 可 以 有 三 阶段 抽样 .四 阶段 抽 


样 等 对 于 二 阶段 以 上 的 抽样 , 称 为 多 阶段 抽样 。 











例如 ,以 全 国 为 总 体 进 行 某 项 调查 ,可 以 定义 全 国 的 县 为 初级 单元 ,乡镇 为 二 
级 单元 ,自然 村 为 三 级 单元 , 户 为 四 级 单元 等 在 全 国 抽取 若 于 样本 县 ,对 样本 县 再 
抽 若 二 样本 乡镇 ,在 样本 乡镇 中 ,抽取 若 于 自然 村 ,在 自然 村 中 抽取 样本 户 ,这 是 一 
个 四 阶段 抽样 问题 。 义 如 ,关于 某 市 居 基 对 香皂 颜色 喜好 的 调查 ,采用 的 是 三 阶段 











抽样 。 
在 实际 使 用 多 阶段 抽样 时 ,各 

















段 的 定义 可 以 根据 行政 管理 级 别 确定 ,如 上 面 


的 街道 .居委会 .居民 户 。 但 并 不 是 所 有 调查 部 按 这 种 方式 进行 ,如 从 城市 抽 街 道 就 
跳 过 了 区 级 行政 机 构 , 还 可 以 跳 过 居委会 直接 抽 居 民 户 等 6 具体 工作 中 如 何 决定 各 
阶段 的 抽样 单元 ,要 根据 抽样 组 织 管理 的 方便 和 实际 的 可 能 进行 。 





(二 ) 多 阶段 抽样 的 优点 
在 大 范围 的 抽样 调查 中 ,多 阶 








段 抽样 是 一 种 常用 的 抽样 技术 。 我 们 已 经 讨论 了 


整 群 抽样 , 整 群 抽样 的 主要 优点 是 样本 比较 集中 、 便 于 调查 .节省 经 费 等 ,但 由 于 群 


内 单元 的 相似 性 ,使 得 整 峰 抽样 的 


抽样 方差 通常 比 相同 样本 量 的 简单 随机 抽样 的 








抽样 方差 大 -另外 ,在 群 比较 大 的 时 


候 ,如 果 对 群 内 每 个 单元 都 进行 调查 , 则 体现 不 
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出 抽样 调查 的 优点 .因此 ,人 们 很 自然 地 想到 ,可 以 对 样本 


行 所 





多 阶段 











[5 








多 阶段 
时 ,只 需 编 制 





初级 单元 的 提 


上 样 ,这 就 提出 了 多 阶段 抽样 的 问题 。 
样 一 方面 保持 了 整 群 抽样 的 样本 比较 集中 、 便 
时 又 避免 了 对 小 单元 过 多 调查 造成 的 浪费 ,充分 发 挥 
样 的 另 一 个 优点 是 不 需要 编制 所 有 小 单元 的 + 
样 框 ,对 被 抽 中 的 初级 单元 ,再 去 编制 二 级 单元 抽样 框 ， 


中 的 下 一 级 单元 再 进 


于 调查 、 节 省 费用 等 优 











样 调查 的 优点 。 
灿 样 框 抽 取 初 级 单元 








依 此 类 推 ,每 阶段 只 需 编制 该 阶段 的 抽样 框 ,从 而 大 大 降低 编制 抽样 框 的 工作 量 。 


对 于 有 些 调查 问题 ,抽样 框 的 变动 非常 频繁 , 待 抽样 框 整理 完毕 后 ,可 
抽样 是 解决 这 类 问题 的 一 个 办 法 。 全 | 
内 的 居民 调查 ,对 一 家 调查 公 


况 相去 甚 远 ,这 时 ,多 阶段 } 
阶段 调查 的 技术 ,即使 是 在 某 个 城市 范 


般 都 用 到 多 























[能 与 实际 情 
内 的 调查 一 








范 

















司 而 言 ,不 可 能 也 没有 必要 编制 全 市 的 居民 名 单 抽样 框 ,多 阶段 抽样 方法 就 可 以 解 


决 这 一 问题 。 


二 、 抽 选 方法 与 推断 原理 





多 阶段 








用 简单 随机 
如 果 两 阶段 抽样 中 所 : 
单元 , 则 这 时 





元 中 的 所 有 二 级 单元 都 被 抽 中 , 则 这 时 的 


实际 工作 中 ,多 阶段 提 








会 ,最 后 一 阶 
就 是 由 其 所 属 的 居民 组 成 





多 阶段 抽样 时 , 抽 伴 是 分 步 进行 的 ,因此 ,讨论 估计 量 8 的 均值 及 


样 每 一 个 阶段 的 抽样 可 以 相 
群 抽样 ,系统 抽样 结合 使 用 。 一 般 来 说 , 当初 级 单元 大 小 相 
样 ;当初 级 单元 大 小 不 








同 ,也 可 以 不 同 ， 


它 通常 与 分 层 抽样 整 
同时 ,第 一 阶段 的 抽样 采 
同时 ,第 一 阶段 的 抽样 采 几 不 等 概 抽 样 。 





有 初级 单元 都 被 抽 中 ,在 每 个 初级 单元 中 抽取 部 分 二 级 

















样 通常 和 整 群 





的 一 个 拜 。 


要 分 阶段 进行 ,这 要 用 到 下 面 的 性 质 1。 


性 质 1 ”对 于 两 阶段 抽样 ,有 
E(B) = EE2(D) 
VO) = VI[ E20)]+ Ei V0)] 


的 抽样 就 成 为 分 层 抽样 ,如果 对 初级 单元 进行 抽样 ,并 且 样 本 初级 单 
样 就 成 为 整 群 抽样 。 
样 结合 使 用 , 即 前 几 阶 是 多 阶段 抽样 ， 
最 后 一 阶 为 整 群 机 样 。 例 如 ,关于 居民 对 香皂 颜色 喜好 的 调查 ,前 两 阶 
居民 户 ,并 对 样本 居民 户 中 的 所 有 居 员 都 进行 调查 ,这 时 的 居民 户 








街道 . 居 委 











方差 时 需 





(8.1) 
{8.2) 


式 中 ,E2, V2 为 在 固定 初级 单元 时 对 第 二 阶 抽样 求 均值 和 方差 ;E1, Vi 为 对 第 一 


阶 抽样 求 均值 和 方差 。 
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性 质 | 可 以 推广 到 多 阶段 抽样 的 情形 ,例如 对 于 三 阶段 抽样 ,有 
下 (8) = EIE2E3(D) (8.3) 
VO) = Vi[E2E3( 的 ]+ El Vol Ea(O)]|+ EE V3(8)] (8.4) 


§8.2 ”初级 单元 大 小 相等 的 二 阶 抽样 


首先 考虑 初级 单元 中 二 级 单元 规模 相等 的 情形 。 对 于 初级 单元 大 小 不 等 的 情 
形 , 可 以 通过 分 层 , 将 大 小 近似 的 初级 单元 分 到 一 层 , 则 层 内 的 二 阶 抽样 就 可 以 按 
初级 单元 大 小 相等 的 方式 来 处 理 。 

第 一 阶段 在 总 体 N 个 初级 单元 中 ,以 简单 随机 抽样 抽取 ”个 初级 单元 ,第 一 
阶段 在 被 拍 中 的 初级 单元 包含 的 M 个 二 级 单元 中 ,以 简单 随机 抽样 抽取 mz 个 二 
级 单元 , 即 最 终 接受 调查 的 单元 。 














例如 , 某 个 新 开发 的 小 区 拥有 相同 户型 的 15 个 单元 的 楼 盘 , 居民 已 经 陆续 搬 
人 新 居 ,每 个 单元 住 有 12 户 居民 ,为 调查 居民 家 庭 装潢 情况 ,准备 从 180 户 居民 户 
中 抽取 20 户 进行 调查 .如 表 8.1。 
表 8.1 二 阶段 抽样 示意 表 
编号 房 号 

1 2° 3 4 5 6 7 8 9 10 1 12 

2 2 3 4 5 6 7 8 9 10 1 12 

3 2 3 4 5 6 7 8 9 10 1 12 

4 2 3 4 5 6 7 8 9 10 1 1 

5 2 3 4 5 6 7 8 9 10 1 1 

6 2 3 4 5 6 7 8 9 10 1 12 

7 2 3 4 5 6 7 8 9 10 11 12 

8 2 3 4 5 6 7 8 9 10 1 2 

9 2 3 4 5* 6 7 8 9 1 1 12 

10 2 3 4 5 6 7 8 9 10 1 12 

11 2 345678 9 10 1 12 

12 2 3 43 6 7 8 9 10 1 12 

13 2 3 4 5 6 7 8 9 10 1 12 

14 2 3 4 5 6 7 8 9 1 1 12 

15 | 2 3 4 5 6 7 8 9 10 1 7 











* ”为 被 搬 中 的 房 号 ， 
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我 们 可 以 利用 二 阶 抽样 方法 。 这 时 ,初级 单元 有 15 个 ,每 个 初级 单元 拥有 的 二 
级 单元 为 12 个 ,首先 将 单元 从 1 到 15 编号 ,在 15 个 单元 中 随机 抽取 部 分 单元 , 抽 
取 了 5 个 单元 ,分 别 是 1,6,9,12,13 号 ;然后 在 被 抽 中 的 单元 中 ,分 别 独立 地 和 随机 
抽取 若 于 户 居民 并 进行 调查 , 即 在 这 5 个 单元 中 ,分 别 在 12 户 居民 户 中 随机 抽取 4 
户 。 





一 ,符号 说 明 

-初级 单元 和 初级 单元 拥有 的 二 级 单元 个 数 :N ,A4 

第 一 阶段 和 第 二 阶段 抽样 的 样本 景 :n,m 

第 i 个 初级 单元 中 的 第 ; 个 二 级 单元 的 观测 值 : Y; 

样本 中 第 i 个 初级 单元 中 的 第 个 二 级 单元 的 观测 值 : yy 


第 一 阶段 和 第 二 阶段 的 抽样 比 :所 = 站, 户 = 器 




















第 ;个 初级 单元 按 二 级 单元 的 平均 值 : 了 , = es Yi 
1= J=1 
按 二 级 单元 的 平均 值 :了 = 方 2 了 5 5 可 
初级 单元 间 的 方差 ;Si = Ri (7 2 = 5 
N AM 
初级 单元 内 的 方差 : 38 = 下 ew -yy 
= 7 2 2109% ~) 
由 3 的 表达 式 注意 到 , 若 记 
M 
$8 = HTD 7) (8.5) 
则 有 
5 = 有 25 (8.6) 
即 S3 是 S3: 的 平均 值 。 
同 理 ,着 记 
3 = ov 一 员 六 (8.7) 


则 有 
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时 = > (8.8) 


二 、 估 计量 及 其 性 质 

{ 一 ) 总 体 均 值 的 估计 

性 质 2 ”对 于 初级 单元 大 小 相等 的 二 阶 抽 祥 , 如果 两 个 阶段 都 是 简单 随机 抽 
样 , 旦 对 每 个 初级 单元 ,第 二 阶 抽样 是 相互 独立 进行 的 , 则 对 总 体 均值 了 的 无 偏 估 
计 为 : 


3s (8.9) 
其 方差 为 ; 

V(5) = 二 ss (8.10) 
V(3) 的 无 信人 计 为 

v9) = Lt (8.11) 





[ 例 8.1] 铭 油 查 4 月 份 100 家 企业 的 某 项 指标 ,首先 从 100 家 企业 中 抽取 了 
一 个 含有 5 家 祥 本 企业 的 简单 随机 样本 , 由 于 填报 一 个 月 的 数据 需要 每 天 填写 流 




















水 账 ,为 了 减轻 样本 企业 的 负担 ,调查 人 员 对 这 5 家 企业 分 别 在 调查 月 内 随机 抽取 
3 天 作为 调查 日 ,要 求 样本 企业 只 填写 这 3 天 的 流水 账 。 调 查 的 结果 如 表 8.2。 
囊 8.2 对 5 家 企业 的 调查 结果 
样本 企业 第 一 日 第 二 日 第 三 日 

1 57 59 64 

2 38 41 50 

3 51 0 63 

4 48 53 49 

5 62 55 54 
要 求 根据 这 些 数据 推算 100 家 企业 该 指标 的 总 量 ,并 给 出 估计 的 95% 置信 区 间 。 

解 :对 这 个 问题 ,我 们 可 以 利用 二 阶 抽样 的 思路 解决 ,首先 将 企业 作为 初级 单 





元 ,将 每 一 天 看 做 二 级 单元 ,每 个 企业 在 调查 月 内 都 拥有 30 天 ( 即 拥有 30 个 二 级 
单元 )。 

在 这 个 问题 中 ,调查 人 员 首 先 在 初级 单元 中 抽取 了 一 个 x = 5 的 简单 随机 样 
本 ,然后 对 每 个 祥 本 的 二 级 单元 分 别 独立 抽取 了 一 个 mx = 3 的 简单 随机 样本 ,这 
就 是 初级 单元 大 小 相等 的 二 阶 抽样 问题 。 
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由 题 意 ,N = 100,M = 30,n = 5,m =3 
= 0.05, 户 = 亚 = 也 -0.10 





症 N 一 而 00 关 =M= 0 
首先 计算 样本 初级 单元 的 均值 方 方差 53;: 
样本 企业 | 5 








mW 





于 是 得 到 ; 





-A A 





oo. 05(1 -0.10) 
X 49.3 十 3 


= 9.3670+0.0702 = 9.437 2 
计算 及 wv( 六): 
Y = NMS = 100 x 30 x 53.6 = 160 800 





x23.4 


v(Y) = NIM?2v(5) = 100? x 30? x 9.437 2 = 84 934 800 


了 的 标准 差 为 ; 


s(Y) =Y vw (Y) = V84 T4000 9 216.007 8 


在 帝 信 度 95% 的 条 件 下 ,对 应 的 :1 = 1.96, 因 此 ,多 的 置信 区 间 为 ， 


160 800 + 1.96 x 9 216 
或 者 说 在 142 736.6 ~ 178 863.4 之 间 。 


值得 注意 的 是 ,如 例 8.1 所 示 , 方 差 估 计 式 中 ,第 一 项 是 主要 的 ， 
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第 二 项 要 小 得 








多 ,这 是 因为 第 二 项 的 分 母 是 第 一 项 的 m 倍 ,而 且 它 还 要 乘 以 小 于 1 的 户 。 在 最 终 
样本 量 n x wm 确定 条 件 下 ,提高 = 而 减 小 m 可 以 大 大 提高 估计 的 精度 。 

如 果 第 一 阶 的 抽样 比 有 i 可 以 忽略 , 则 方差 估计 式 (8.11) 可 以 简单 为 如 下 的 结 
果 : 





加 7 -3 (8.12) 

这 个 结果 在 实际 工作 中 可 以 作为 参考 ， 六 
复杂 抽样 时 ,方差 53 的 无 偏 估计 很 难得 到 , 当 fi 可 以 忽略 时 ,只 需要 初级 单元 的 
均值 汤 就 可 以 得 到 方差 近似 估计 。 当 然 ,从 另 一 个 方 而 看 ,fi 可 以 忽略 ,意味 着 总 
体 中 初级 单元 六 很 大 而 抽 选 出 的 = 却 很 小 ,结果 是 样本 分 布 相对 集中 ,势必 增 大 抽 
样 误差 。 

{ 二 ) 对 总 体 比例 的 估计 

和 欲 调查 居民 户 进行 家 庭 装 漠 时 聘请 专业 装潢 公司 的 比例 ,这 时 小 区 内 所 有 的 
家 庭 ( 一 级 单元 ) 可 以 按 是 否 聘请 专业 装潢 公司 划分 为 两 类 。 

如 果 要 估计 总 体 中 具有 所 研究 特征 的 二 级 单元 数 占 全 体 二 级 单元 数 的 比例 ， 


v()= 革 = 二 




















则 
BP, = 南 4 
式 中 ,4， 人 个 初级 单元 中 具有 所 研究 特征 的 二 级 单元 数 . 则 对 了 的 估计 为 : 
p= Dp -起 Da 《8.13) 


式 中 ,a 为 第 ; 个 初级 单元 中 具有 所 研究 特征 的 二 级 单元 数 。 

性 质 3 ”对 于 二 阶 抽样 ,如 果 两 个 阶段 都 是 简单 随机 抽样 , 则 有 
E(p)=P 

佑 计量 p 的 方差 为 : 


N 
VD = ip 








_j M 这 
n NM -DPQ 
(8.14) 
V{p) 的 无 偏 佑 计 为 ; 
wp) = Dp A Hg (8.15) 


趟 中 ,Q;: = 1-P;g = 1 pi 
【 例 8.2】 和 欲 调查 某 个 新 小 区 居民 户 家 庭 装 漠 聘 请 专业 装 浇 公 司 的 比例 ,我 
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们 在 15 个 单元 中 随机 抽取 了 5 个 单元 ,在 这 5 个 单元 中 分 别 随机 抽取 了 4 户 居民 
并 进行 了 调查 ,对 这 20 户 的 调查 结果 如 表 8.3 所 示 。 
末 8.3 对 20 个 样本 户 的 调查 结果 
样本 单元 第 一 户 第 二 户 
一 栋 A 座 
二 栋 C 座 
三 栋 C 座 
四 栋 C 座 
五 栋 B 座 




















江天 天 天 知 | 
到 到 动 部 部 
到 而 部 到 双 | 胆 





要 求 根 据 这 些 数据 推算 居民 家 庭 装潢 聘请 专业 装潢 公司 的 比例 。 
解 : 记 请 专业 装潢 公司 的 居民 户 为 "1”, 否 则 记 为 “0”。 
这 里 ,N = 15,M = 12,# = 5m = 4 六 = 商户 = 让 

因此 ,聘请 专业 装潢 公司 的 比例 为 ; 


-vv .1 = 
p= mi (2+1+1+0+1)= 


5x4 = 0.25 
其 方差 的 估计 是 : 











其 标准 差 为 :s(p) = V v( 廊 ) 0.081 

因此 ,可 以 以 95% 的 把 握 认 为 ,居民 装潢 请 专业 公司 的 比例 在 
0.25 土 1.96 x 0.081 

的 范围 内 , 即 9.1% 一 40.9% 之 间 。 
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§ 8.3 ”初级 单元 大 小 不 等 的 二 阶 抽样 


一 般 来 说 ,初级 单元 的 大 小 是 不 相等 的 ,对 于 初级 单元 中 的 二 级 单元 数 不 相 等 
的 情况 ,可 以 通过 分 层 ,将 大 小 近似 的 初级 单元 分 到 一 层 , 则 层 内 的 二 阶 抽样 就 可 
以 按 上 节 介 绍 的 方法 来 处 理 。 

如 果 按 初级 单元 的 大 小 分 层 后 , 层 内 初级 单元 的 大 小 差别 仍 很 大 ,或 者 合理 的 
分 层 是 按 其 他 指标 进行 的 , 则 项 用 到 本 节 介 绍 的 方法 来 处 理 二 阶 抽样 的 问题 .当初 
级 单元 大 小 不 等 时 ,对 初级 单元 抽样 一 般 采 用 不 等 概 抽样 。 


一 ,符号 说 阴 

首先 对 初级 单元 大 小 不 等 时 二 阶 抽样 使 用 的 符号 进行 规定 。 
总 体 中 初级 单元 个 数 以 及 第 一 阶 抽取 的 样本 量 :N ,= 

第 i 个 初级 单元 中 二 级 单元 数 : Mi 

第 i 个 初级 单元 中 第 二 阶 抽样 的 样本 量 : m; 

第 i 个 初级 单元 中 的 第 j 个 二 级 单元 的 观测 值 : yy 
样本 中 第 i 个 初级 单元 中 的 第 ; 个 一 级 单元 的 观测 值 :5 


第 一 阶 和 第 二 阶 的 抽样 比 :了 1 = 奴 , fz = 如 
N 3 

二 级 单元 个 数 : Mo = > Mi mo = > mi 

指标 总 和 :Y= 了 SY,y =- Dw 


第 ; 个 初级 单元 指标 总 和 : Y; = YY,,y = i» 
sl 


EI 


第 i 个 初级 单元 按 二 级 单元 的 平均 值 : 了 , = 南宫 Y = 


Mi 


LD = 


Di y=1 
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按 二 级 单元 的 平均 值 : = 起 .站 Y= 磺 ， So 





初级 单元 问 的 方差 ;5 = 上 72)(Y, -了 ,= (5 





AM 
第 ; 个 初级 单元 二 级 单 元 问 的 方差 :98 = F772)( Ys- 卫 》 





二 估计 量 及 其 性 质 

{ 一 ) 对 初级 单元 进行 简单 随机 抽样 

如 果 二 阶 抽样 中 每 个 阶段 都 采用 简单 随机 抽样 ,并且 每 个 初级 单元 中 二 级 单 
元 的 抽样 是 相互 独立 的 , 则 对 总 体 总 和 的 估计 可 以 采用 简单 估计 ,也 可 以 考虑 采用 
比率 估计 。 

1. 简单 佑 计量 。 直 观 地 看 ,对 两 个 阶段 都 采用 简单 随机 抽样 的 二 阶 抽样 ,对 总 


体 总 和 的 估计 可 以 采用 简单 估计 : 
= = Ns = x>, (8.16) 
根据 性 质 1， 不 仅 可 以 证 明 这 个 估计 量 是 无 偏 的 ， 并 且 它 的 方差 为 : 
交 2 _ N 2 2 . 
= 全 书记) NE _Y) + 站 人 De 




















V(Y,) 
(8.17) 
V( 名) 的 一 个 无 偏 估计 为 : 
v() = Nf) -1 SY > MU js 
r=1 LA ms 
{8.18) 
式 中 ， 
= 12> 多 (8.19) 


车- 个 个 计生 以 表示 成 样本 观测 人 总 和 的 常数 倍 , 则 称 这 个 样本 (或 者 估计 
景 ) 是 自 加 权 的 对 于 自 加 权 样 本 ,其 估计 量 的 表示 形式 非常 简单 ,所 以 在 实际 工 
作 中 ,人 们 通常 喜欢 将 样本 构造 成 为 自 加 权 的 形式 。 
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由 式 (8.16) 可 知 , 当 元 站 (或 者 说 所 = 区) 为 常数 时 ,估计 量 包 就 是 自 加 权 


的 。 
2. 比率 佑 计量 。 如 果 二 级 单元 Y; 近似 ,由 于 初级 单元 的 大 小 M; 不 同 , 则 往往 


造成 初级 单元 的 观测 值 Y, 差异 很 大 ,使 得 估计 量 方差 V(Y, ) 的 第 一 项 很 大 ,从 而 








估计 量 的 方差 也 就 变 得 很 大 。 
这 时 可 以 考虑 将 初级 单元 的 大 小 M; 作为 辅助 变量 ,采用 比率 估计 量 对 总 体 
总 和 进行 估计 。 
对 总 体 总 和 的 比率 估计 量 为 : 
_ 2 Ms QZ 多 
Yr = Mo 二 一 一 = Mo 于 (8.20) 
M, 2M 














这 是 一 个 典型 的 比率 估计 重 , 它 是 有 偏 的 ,但 随 着 样本 量 的 增加 ,其 信 倚 将 赵 
于 零 。 其 近似 均 方 误 差 为 ， 
MSE(Yi) ~ UA i -Fy 


,A fa)s (8.21) 


AMSE( Yr) 的 样本 估计 为 : 





2 
二 NS) M3 a A (8.22) 
式 中 ， 
= 名 DMs 
Yr = 十 = < (8.23) 
” 2M, 
(二 ) 对 官 级 单元 进行 放 回 不 等 概 抽样 


对 初级 单元 进行 放 回 不 等 概 抽样 时 ,可 以 利用 第 5 章 介绍 的 方法 ,对 初级 单元 
进行 抽样 ， 即 事先 规定 每 个 初级 单元 村 中 的 概率 Z( 立 2 = 1)。 对 被 抽 中 的 初 


级 单元 ,再 抽取 mx, 个 二 级 单元 。 如 果 某 个 初级 单元 被 抽 中 多 次 ， 则 将 这 mi 个 二 纪 
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单元 放 回 ,重新 抽取 m, 个 。 例 如 , 某 个 初级 单元 被 重复 抽 中 两 次 , 则 对 其 二 级 单元 
抽取 一 个 大 小 为 mi 的 样本 ,将 这 wm; 个 二 级 单元 放 回 ,重新 抽取 一 个 大 小 为 m, 的 
样本 。 当 然 ,这 两 个 样本 中 的 二 级 单元 可 能 会 有 重复 ,应 记录 下 这 些 样本 的 情况 。 实 
际 调查 时 ,对 重复 的 二 级 单元 只 调查 一 次 ,但 计算 时 , 它 归 哪个 样本 就 参与 哪个 样 
本 的 计算 。 

对 总 体 总 和 的 估计 通常 是 构造 初级 单元 指标 总 量 Y; 的 无 偏 估计 六 ,然后 利用 
第 5 章 介绍 的 Hansen - Hurwitz 估计 量 对 总 体 总 和 Y 进行 估计 : 


?= 工 六 时 (8.24) 


由 于 包 是 区 的 无 偏 估计 ,由 性 质 1, 可 以 证 明 名 二 是 了 的 无 偏 估计 , 且 六 mm 的 方差 
为 : 




















国 1 1 2 VD) 
V Ym) = 并 [立信 -了 | + ] (8.25) 
V( YYpy) 的 一 个 无 偏 估计 为 ， 
用 全 2 
vf) = (8.26) 


注意 上 述 对 第 二 阶 抽 样 并 没有 做 出 特别 的 规定 ,而 且 估计 量 的 方差 估计 式 与 
第 二 阶 抽样 的 方式 无 关 。 


如 果 希 望 Yizy 是 自 加 权 的 ,由 
SA My 
Ym -1 Sy 


1 Ti 





则 要 求 
2 = K= 寺 (8.27) 
这 里 万 为 总 体 中 任意 一 个 二 级 单元 被 抽 中 的 概率 .如果 记 事先 确定 , 则 
1- 了 (8.28) 
记 总 体 中 所 有 的 二 .级 单元 数 为 Mo, 如 果 抽 样 时 每 个 初级 单元 被 抽 中 的 概率 
与 其 拥有 的 二 级 单元 数 成 比例 , 即 初级 单元 被 抽 中 的 概率 为 Z; = 其 ,第 二 阶段 对 


二 级 单元 进行 简单 随机 抽样 , 则 m, = m 时 ,样本 是 自 加 权 的 ,这 时 ,对 总 体 总 量 Y 
的 估计 为 : 
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Ypps = Moy = 各 > = 2 >>» (8.29) 
估计 县 的 方差 估计 为 ; 
2 
v(Ypps) = ms -3) (8.30) 


的 与 二 级 单元 数 成 比例 的 不 等 概 抽样 ,第 二 


实际 工作 中 , 如果 初 级 单元 大 小 不 相等 ,通常 人 们 喜欢 在 第 一 阶 抽样 时 按 放 











回 


阶 抽样 则 进行 简单 随机 抽样 , 且 每 个 样 











本 初级 单元 的 样本 量 都 相同 ,这 样 得 到 的 样本 是 自如 权 的 ,估计 量 的 形式 非常 简 
单 。 
【 例 8.3】 某 小 区 拥有 10 座高 层 建筑 , 每 座高 层 建筑 拥有 的 楼 层 数 如 表 
8.4 所 示 。 
窜 8.4 了 0 座高 层 建筑 的 各 自 层 数 
高 层 建筑 | A B Cc D E F G H I 了 
楼 层 2 26115106 16|20 























座 建筑 抽取 两 个 楼 层 。 对 10 个 楼 层 居民 人 数 的 调查 结果 如 表 8.5 所 示 , 请 对 小 


用 二 阶 抽样 方法 抽出 10 个 楼 层 进 行 调查 ,第 一 阶 抽样 为 放 回 的 、 按 与 每 座 建 
筑 拥 有 的 楼 层 数 成 比例 的 不 等 概 抽样 抽取 5 座 建 筑 ,第 二 阶 按 简单 随机 抽样 对 每 




















总 居民 数 进行 估计 ,并 给 出 估计 的 精度 。 
于 8.5 中 选 的 一 阶 样本 序号 和 10 个 楼 层 的 居民 数 





- - 阶 样本 序号 | 1 2 3 4 | 5 

















居民 数 18,12 15,18 19,.13 16.10 | 16,11 





解 :已 知 # = 5,m = 2,Mo = 145, >)>)y = 148 
rh 


注意 到 这 个 样本 是 自 加 权 的 ,根据 公式 (8.29) ,得 
Y= MD Sy, - dS x 148 -2146( 人 ) 


MER it y=1 


估计 重 的 方差 
(= 元 岂 六 
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1432 2 加 2 加 2 
= 5(5 = (1s 14.8) + (16.5 — 14.8)* + (16 — 14.8) 


+ (13— 14.8) + {13.5 — 14.8)?] 
= 9 776.625 
估计 量 的 标准 差 为 : 


s(Y)=N vw (Y) x 98.88 
因此 ,小 区 居民 数 为 2 146 人 ,在 置信 度 为 95% 时 ,估计 的 相对 误差 为 ; 





6 
{三 ) 对 初级 单元 进行 不 放 回 不 等 要 抽样 
不 放 问 不 等 概 抽 样 的 效率 比 放 回 的 效率 要 高 ,因此 ,有 时 人 们 也 会 倾向 于 用 不 
放 同 不 等 概 抽 样 来 抽取 初级 单元 ,通过 简单 随机 抽样 获得 二 级 单元 .这 时 可 以 利用 
第 5 章 介绍 的 不 放 回 不 等 概 抽 样 的 结果 对 总 体 总 量 进行 推算 。 同 第 5 章 介绍 的 情 
形 一 样 ,这 时 估计 量 的 推算 比较 复杂 。 
如 果 初 级 单元 的 包含 概率 为 x; 及 rw, 对 总 体 总 量 Y 的 估计 可 以 采用 
Horvitz -Thompson( 元 维 茨 - 汤普森 ) 估计 ， 








Yr -宇和 (8.31) 

Zr 方差 的 估计 为 
v( Vir) = 1 + 袜 既 0 
{8.32) 


如 果 ”固定 , 则 VCYyr) 也 可 用 


一 如 2 玫 
v3 


1 7 





来 估计 。 
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$8.4 ”其 他 问题 


一 .总 样本 量 及 最 优 样 本 量 的 配置 

对 于 二 阶 抽样 ,应 该 抽 多 少 二 级 单元 , 即 确定 nm 为 多 少 ,可 以 采用 两 种 办 法 。 
一 种 是 根据 调查 费用 ,确定 可 以 调查 的 祥 本 量 ; 另 一 种 是 根据 简单 随机 抽样 时 应 抽 
祥 本 量 , 再 乘 以 设计 效应 deff 获得 。 二 阶 抽样 与 简单 随机 抽样 相 比 ,其 效率 比较 
低 ,ae 六 应 该 大 于 1。 实 际 工作 中 ,对 于 二 阶 抽样 ,有 时 取 deff 的 经 验 数据 (不 同 项 
目的 deff 不 同 ,案例 分 析 的 资料 显示 ,deff 的 范围 约 在 1.3 一 3 之 间 )。 

对 于 初级 单元 大 小 相等 的 二 阶 抽 样 , 如 何 设计 两 个 阶段 的 样本 量 , 即 如 何 确定 
nn 和 m 是 需要 考虑 的 问题 。 由 于 影响 精度 的 主要 原因 是 初级 单元 之 间 的 差异 ,所 以 
多 抽 一 些 初级 单元 , 少 抽 一 些 二 级 单元 比较 好 ,但 往往 初级 单元 的 调查 费用 比 二 级 
单元 要 高 。 好 的 设计 可 以 在 调查 总 费用 一 定 的 情况 下 ,使 佑 计 的 精度 最 高 ;或 在 一 
定 的 精度 条 件 下 ,使 调查 总 费用 最 省 ,这 就 是 最 优 祥 本 量 的 配置 或 最 优 抽样 比 所 
和 户 的 确定 问题 。 

考虑 费用 函数 为 最 简单 的 一 种 形式 为 

C= cotcnt cnm 《8.34) 

式 中 ,co 为 与 样本 量 无 关 的 固定 费用 ,如 公司 的 办 公费 、 场 租 费 等 ;cl 为 每 调查 一 
个 初级 单元 的 费用 ; c2 为 每 调查 一 个 二 级 单元 的 费用 。 
则 mm 的 最 优 值 为 : 


mop = /a (8.35) 


式 中 si S17_ 3 
Su Ii- M 


实际 使 用 时 ,m 应 为 整数 ,但 计算 出 的 mop 往往 不 是 整数 , 令 mx' 为 mom 的 整 
数 部 分 , 则 m 的 取 值 规则 为 

( 当 m > mm +1) 则 了 到 关 = rm 十; 

(2) 当 ms 过 mm +1), 则 取 1m = m’s 











2 
(G) 当 ma > M 或 si- 总 < 0, 则 到 内 = M。 
求 出 m 之 后 , 根据 总 费用 函数 ,就 可 以 确定 ,从 而 确定 最 优 抽样 比 所 和 
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【 例 8.4]( 续 例 8.1) 若 吕 = 10,V(5) = 15, 试 确定 最 优 请 ,ns 


解 :首先 计算 mop。 
由 例 8.1 的 计算 , 知 
51 = 49.3,53 = 23.4 


于 是 ,由 本 章 附 录 2, 有 





Sf = 3 Lh -49.3-10.1x23.4= 42.28 
四 3 
S23 = s3 = 23.4 
a2 2 23.4 
2 2_ 二 :一 一 一 
名 = 部 -著名 28- 对 =41.5 


因此 


mop = 2 /a = 和 x 10 2.37 
SD» 
m =2,m +1=3 
因为 miy 5.64 < mm +1)=6 
因而 到 最 优 的 m = 2。 
进一步 计算 mw。 


了 SiY Si 和 
由 VO) = 汪 (Sf- 汇 + 这 一 革 

















M nm N 
因此 
_ 1 23.4， 23.4 42.28 
15 = 起 (42.28- 中) 2 
整理 得 到 
num ~ 3.449 
而 可 以 取 nn = 4。 
二 ,三 阶 及 多 阶段 抽样 
(一 ) 各 级 单元 大 小 相等 时 的 多 阶段 抽样 


二 阶 抽 样 的 推广 是 三 阶段 抽样 ,乃至 更 高 阶 抽样 。 对 于 三 阶段 抽样 ,前 两 阶 与 
二 阶 抽样 相 则 ,只 是 第 三 阶段 的 抽样 是 对 被 抽 中 的 二 级 单元 中 的 三 级 间 元 再 抽样， 
从 中 抽出 样本 三 级 单元 (接受 调查 的 最 终 单元 )。 
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如 果 总 体 拥有 N 个 初级 单元 ,每 个 初级 单元 拥有 M 个 二 级 单元 ,每 个 二 级 单 
元 义 拥 有 K 个 三 级 单元 ,各 阶 的 样本 量 分 别 为 n,m ,, 每 个 阶段 都 按 简单 随机 抽 
样 , 则 三 人 





y= :> > (8.36) 
其 方差 为 : 

Vv(¥) =! 二 Asi+ 本 si + Lf {8.37) 
其 无 偏 估 计 为 : 

5 = 于 (8.38) 


对 照 二 阶 抽 样 的 估计 公式 ,可 以 看 出 ,对 于 更 高 阶 的 抽样 ,对 (最 终 单元 的 ) 均 
值 的 估计 就 是 样本 均值 ,也 就 是 将 所 有 最 终 样本 单元 的 指标 求 和 ,然后 除 以 最 终 单 
元 的 样本 量 。 

由 于 方差 的 主要 项 为 第 一 项 ,其 次 为 第 二 项 ,第 三 项 几乎 很 小 了 ,所 以 对 于 更 
高 阶 的 抽样 ,根据 不 同 的 情况 (如 各 阶 的 样本 量 ,各 阶 内 单元 之 间 的 方差 等 ), 估 计 
量 的 方差 计算 一 般 只 计算 到 第 二 阶 至 第 三 阶 就 可 以 了 。 

(二 ) 各 级 单元 大 小 不 相等 时 的 多 阶段 抽样 

1. 各 阶 抽 样 采用 不 等 概 抽样 一般 情况 下 ,各 级 单元 的 大 小 不 相等 类似 对 初 
级 单元 大 小 不 等 的 二 阶 抽样 时 的 讨论 ,通常 这 时 每 一 阶 的 抽样 采用 与 单元 大 小 成 
比例 的 不 等 概 抽 样 ,而 且 通常 抽样 是 放 回 的 , 即 PPS 抽样 。 

以 三 阶 抽样 为 例 。 记 : 

总 体 拥有 N 个 初级 单元 ,每 个 初级 单元 拥有 M; 个 二 级 单元 ,每 个 二 级 单元 又 
拥有 Ki 个 三 级 单元 。 

各 阶 样本 量 分 别 为 4,m,( 注 意 加 ,不 随 单元 变化 ), 即 抽取 个 初级 单元 ， 
在 每 个 样本 初级 单元 中 ,抽取 mm 个 二 级 单元 ,在 每 个 样本 二 级 单元 中 ,抽取 上 个 三 
级 单元 。 

每 一 阶 间 元 机 中 的 梳 率 为 6，Z5， Zu 它们 交尾 ， 


-1 Da Sa! 
这 时 对 总 体 总 和 
W221 
的 无 偏 估 计 为 ; 
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-二 立 芒 二 宛 罗 (8.39) 


nmk FY zi fo zy ft 
其 方差 为 
1 1 1 
VD) = 二 ( 守 攻 -+ 志 总 雪 加 于 -9 
LY 
+ 交 - 号] (8.40) 
式 中 ， 
x Mk a 
Y= DY Y= DD Y= DY, (8.41) 
21 J wl =1 
V( 六 ) 的 一 个 无 偏 估计 为 ; 
v() = zn — Y)2 (8.42) 
式 中 ， 


| 
2 . 样本 为 自 加 权 的 条 件 。 实 际 工作 中 ,通常 的 做 法 是 前 两 阶 抽样 采用 PPS 抽 
样 , 即 对 初级 单元 和 二 级 单元 的 抽样 按 放 回 的 ,与 其 单元 大 小 成 比例 的 概率 抽样 ; 
最 后 一 阶 抽样 按 等 概率 抽 选 ,如果 从 第 二 阶 开始 ,每 一 阶 的 样本 量 都 相同 ( 即 x; = 
mr, 丰 二 处), 则 样本 是 自 加 权 的 。 
这 时 ， 





2 = = Z,; = 之， = 
: NN 人 Mo TM LK 
SEs | 
注意 这 时 第 三 阶 抽样 也 是 放 回 的 ,各 阶 单元 的 大 小 是 以 最 小 (最 终 ) 单元 数 计算 
的 。 
和 As 39) , 则 总 体 总 和 的 估计 为 : 
pp (8.43) 


nmk TA 
也 是 以 三 级 单元 计算 的 样本 简单 平均 数 。 了 的 表达 式 正好 说 明 这 时 估计 量 是 自 加 
权 的 。 
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立方 差 的 估计 为 : 
2 
v(Y) = ee -3 (8.44) 
式 中 力 = 志 立 袜 ww 


mk 

如 果 对 三 级 单元 的 抽样 采用 不 放 回 简单 随机 抽样 ,上 述 公式 仍然 威 立 , 只 是 估 
计量 的 理论 方差 比 放 回 的 情形 小 一 些 。 

类 似 地 ,对 于 更 高 阶 的 情形 ,除了 最 后 一 阶 采用 等 概率 抽样 ( 放 回 的 或 不 放 回 
的 均 可 ), 前 几 阶 均 采用 PPS 抽 样 ,并 且 自 第 二 阶 开始 ,每 一 阶 的 样本 量 都 相同 ( 即 
ui = 坟 1 机 二 此,…) , 则 样本 是 自 加 权 的 ,其 估计 其 的 形式 非常 简单 。 

【 例 8.5] ， 某 调查 公司 接受 了 一 项 关于 全 国 城市 成 年 居民 人 均 奶 制品 消费 支 
出 及 每 天 至 少 喝 一 杯 鲜 奶 的 人 数 的 比例 情况 的 调查 .确定 抽样 范围 为 全 国 地 级 及 
以 上 城市 中 的 成 年 居民 。 成 年 居民 指 年 满 18 周岁 以 上 的 居民 。 
第 一 步 :确定 抽样 方法 。 
调查 公司 决定 采用 多 阶段 抽样 方法 进行 方案 设计 ,调查 的 最 小 单元 为 成 年 居 
民 。 确 定 调查 的 各 个 阶段 为 城市 街道 .居委会 .居民 户 ,在 居民 户 中 利用 二 维 随机 
表 (Kish 随机 表 的 简化 ) 抽取 成 年 居民 。 
第 二 步 ; 确 定 样本 量 及 各 阶段 样本 量 的 配置 。 

按 简单 随机 柚 样 时 ,在 95% 置信 度 下 ,绝对 误差 为 5% , 取 使 方差 达到 最 大 的 
《消费 奶 制品 的 居民 ) 比例 50% , 则 全 国 样本 量 应 为 ; 
28 ~ a 20.5x0.5 30.5 = 400( 人 ) 
根据 以 往 油 和 的 经 验 ,估计 加 符 此 6 80% ,因此 调整 样本 量 为 ; 


= 00( 人 ) 


多 阶段 抽样 的 效率 比 简单 随机 抽样 的 效率 低 , 这 里 取 设 计 效 应 deff = 3.2, 则 
在 全 国 范 围 内 应 调查 的 样本 居民 为 : 
n2 = no X deff = 500 x 3.2 = 1 600( 人 ) 
各 阶段 的 样本 量 配置 为 : 
初级 单元 :20 个 城市 ; 
二 级 单元 :80 个 街道 ,每 个 样本 市 内 抽 4 个 街道 ; 
三 级 单元 :160 个 居委会 ,每 个 样本 街道 内 抽 2 个 居委会 
四 级 单元 :1 600 个 居民 户 , 每 个 样本 居委会 内 抽 10 个 居民 户 。 






























































no 二 
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在 样本 居民 户 内 ,利用 二 维 随 机 表 抽 1 名 成 年 居民 。 
第 三 步 :确定 抽样 方法 。 
第 一 阶段 ,在 全 国 磊 市 中 按 与 人 口 数 成 比例 的 放 回 的 不 等 概 抽样 , 即 PPS 抽 

















样 。 

第 二 阶段 和 第 三 阶段 分 别 按 与 人 口 数 成 比例 的 不 等 概 等 距 抽 样 。 

以 第 二 阶段 为 例 , 在 某 个 被 抽 中 的 样本 城市 中 ,将 其 所 属 的 街道 编号 ,搜集 各 
街道 的 人 口 数 , 胡 耶 每 个 街道 与 其 人 口 相同 的 代码 数 ; 根 据 该 市 总 人 口 数 除 以 样本 
景 4, 确 定 抽样 间距 ;然后 对 代码 进行 随机 起 点 的 等 距 抽样 , 则 被 抽 中 代码 所 在 的 
街道 为 样本 街道 。 

第 四 阶段 ,分 别 在 每 个 样本 居委会 中 , 按 等 距 抽样 抽出 10 个 居民 户 。 即 根据 居 
委 会 拥有 的 居民 户 数 除 以 样本 量 10 得 到 抽样 间距 ,然后 随机 起 点 等 距 抽样 。 

在 每 个 样本 居民 户 中 ,调查 员 按 二 维 随机 表 抽 取 1 名 成 年 居民 。 二 维 随机 表 的 
使 用 方法 如 下 。 

(1) 随机 号 的 确定 应 事先 在 随机 表 的 第 一 行 数字 上 , 选 好 一 个 数字 ,并 划 上 
一 个 时 ,被 痢 好 的 这 个 数字 就 是 这 份 问卷 的 随机 号 .随机 号 的 选择 一 般 由 小 到 大 或 
循环 给 出 。 可 以 根据 便于 操作 又 保证 实现 随机 的 原则 , 选择 确定 随机 号 的 适当 方 
法 。 

(2) 选 出 被 访 者 .将 所 有 符合 基本 要 求 的 家 庭 成 员 按 年 龄 从 大 到 小 的 顺序 列 
人 随机 表 中 ,以 事先 做 好 的 随机 号 为 纵 坐 标 , 以 最 小 家 庭 成 员 为 栅 坐 标 , 交叉 处 对 
应 的 数字 即 为 被 访 者 的 序号 例如 , 某 受 访 户 的 随机 号 确定 为 4, 该 户 中 家 庭 成 员 
符合 本 次 调查 要 求 的 共有 4 人 .将 这 4 人 的 基本 情况 按 年 龄 从 大 到 小 的 顺序 填 人 
下 面 的 随机 表 中 。 如 表 8.6 所 示 。 















































表 8.6 
序号 | 姓名 | 许 别 [年 龄 [T11213T@TsT65T718T9Ti00iTI2 
1 肖 明 男 53 1 EUEEEEELD TI 
2 活 红 | 女 5 |2|1|5|2|1|2|11|2|1112|1211 
3 肖 晓 波 | 男 23 |3|2|11|111312|12|1113|11|1213 
4 肖 晓 玲 | 女 2 14|1|13| 四 |213|111413121411 
5 5j 4|1|12|13|14|14112|315|1412 
6 6|3|1|15|2|4|3|151114|161|12 
7 7|1|14|3|6|2|5|215|17|14|13 
8 8|1415|1711121613j17151311 
9 9|15|1|4|3|8|2|1716|15j12|18 
10 1]013|15|1914|1117|1218161914 
11 11|16|1|5|401419|18|13|2|17|16 
12 1D17|12|19|141016111813|10|5 












































表 中 ,序号 为 4 的 列 与 年 龄 最 小 的 家 庭 成 员 肖 晓 玲 所 在 的 第 4 行 交叉 的 数字 
是 2。 因此 ,第 2 号 家 庭 成 员 汪 红 为 被 访 者 。 

第 四 步 :推算 方法 。 

这 样 获得 的 样本 ,虽然 不 是 严格 按照 前 四 阶 采 用 PPS 抽 样 ,最 后 一 阶 采用 等 概 
率 抽 样 ,但 由 于 每 - 阶 的 抽样 比 相 对 来 说 可 以 忽略 ,因此 它 仍 可 以 近似 地 作为 一 个 
自 加 权 样 本 ,这 时 ,可 以 将 样本 均值 作为 总 体 均值 的 无 偏 估计 。 

记 各 样本 城市 的 80 位 样本 居民 中 , 奶 制 品 消费 总 支出 为 y;, 则 各 样本 城市 人 
均 奶 制品 消费 支出 为 ; 


Di 
前 
全 国 1600 各 居民 组 成 的 样本 中 , 奶 制品 消 费 总 支出 为 》= 2, 则 成 年 居民 
人 均 奶 制 品 消费 支出 为 : 





yy LS、 
Y 1600 1600< 


了 的 方差 的 估计 为 : 


四 1 = 1 二 2 
v9) = TD 厅 之 人 — 3) 
对 总 体 比例 的 推算 可 以 借用 对 均值 的 推算 公式 。 记 各 样本 城市 的 80 位 样本 居 
民 中 ,每 天 至 少 喝 一 杯 鲜 奶 的 人 数 为 a;, 则 各 样本 城市 每 天 至 少 喝 一 杯 鲜 奶 的 人 
数 的 比例 为 ， 





pb; = Er = 1 
全 国 1 600 名 居民 组 成 的 样本 中 ,每 天 至 少 喝 一 杯 鲜 奶 的 总 人 数 为 = 过， 
则 成 年 居民 中 每 天 至 少 喝 一 杯 鲜 奶 的 人 数 的 比例 为 : 














的 方差 的 估计 为 : 
"0p) = zt py 
以 上 公式 中 = 20。 
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小 结 


本 章 介绍 了 多 阶段 抽样 方法 ,对 于 大 规模 的 抽样 调查 项 目 ,通常 采用 多 阶段 抽 


样 方法 


。 这 种 方法 可 以 看 做 对 样本 群 内 的 单元 进行 再 抽样 的 一 种 方法 ,和 整 群 抽 样 


的 情形 一 样 , 当 各 级 单元 大 小 相同 时 ,各 阶 的 抽样 采用 等 概率 抽样 的 方法 。 但 实际 
中 ,大 多 数 是 各 级 单元 大 小 不 等 的 情形 ,这 时 ,最 简单 的 方法 是 构造 自 加 权 的 样本 ， 
也 就 是 前 几 阶 采用 PPS 抽样 ,最 后 一 阶 采 用 等 概率 抽样 , 并且 从 第 二 阶 开始 ,每 一 
阶 的 样本 量 都 相同 ,这 时 估计 量 的 形式 非常 简单 。 


1. 
证 








本 章 附 录 ”多 阶段 抽样 估计 量 性 质 的 证 明 


证 明 性 质 1。 
明 :这 里 只 给 出 两 阶段 抽样 时 估计 量 均值 .方差 的 计算 公式 ,三 阶段 抽样 时 


的 公式 推导 类 似 。 


对 


于 均值 公式 
E(B) = EE2(8) 


可 以 理解 为 对 所 有 可 能 样本 的 平均 ,可 以 分 两 步 进行 。 在 给 定 的 一 个 样本 量 为 = 的 
初级 单元 样本 中 ,对 所 有 二 级 抽样 可 能 的 样本 估计 量 进 行 平均 ,然后 再 对 所 有 一 级 





抽样 可 


对 两 边 


能 的 样本 估计 量 进行 平均 。 
记 E(B)=8 . 
V0) = E(O -0 = EEO - 0) 


E(B -8)* = E(B)? - 26E2(0) + 
= [Es(0)]: + V2(8) ~ 26E2(8) + 
求 五 ,得 
V8) = Ei[E:( 的 ]2+Ei[Va( 的 ] 一 部 
= Bi[ 2(6)]2 + E[V2(0)]- [EE2(0)]: 





= VI (0)]+ Ei[ V2(0)] 
2. 证 明 性 质 2: 了 的 无 偏 估计 及 其 方差 。 
证 明 ; 要 证 明子 是 Y 的 无 偏 估计 ,需要 用 到 性 质 1。 
E(3) = ElE2(3) 
由 于 两 个 阶段 的 抽样 都 是 简单 随机 的 ,因此 由 简单 随机 抽样 的 性 质 ,有 


E05) = EilE(5)]= E [E135)]= ElD Es) 
-E17)= ? 
由于 每 个 初级 单元 中 对 二 级 单元 的 抽样 是 相互 独立 的 ,因此 5 的 方差 


VF) = Vi[ E25)]+ El[ V2(F)] 
V(3) 的 第 一 项 


Vi[Ez( 习 ]= Vie(1>5)]= vd 


























V(3) 的 第 二 项 





Ei[ V2($)]= El 











从 而 得 到 
V9) = 1 hs? + Lo 
下 面 证 明 [ v3)]= V(3), 这 需要 先 求 得 (5) 和 下 (23)。 注 意 到 每 个 级 
单元 中 二 级 单元 的 抽样 用 相 互 独立 的 ,因此 有 


ml DH]= |G 37) = BaD -om 
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= 3 E23)] + Va(5)l— nl[E2(5)] + Va(3)| 





记 交 = 起 (注意 了 天), 则 


1 
ey] 


ED -Pr 六 汪 -六 吕 


nm A 


= BY D+ Dd 二 有 六 si 
气 气 





于 是 有 
E(s?) = El[E2(s?)] 
oy ll- ffl 
= E72 -7):] 2 >) 
= str ss 
对 于 号 ,有 


E(s3) = Fld- EE je D> 2 -3 


站 








-Btls 7] 
i 


将 EEC， RA EL 得 


E[o(5)]- 17 (st+ 1/8): LU /ss 
/s+ Ls = v3) 


192 





习题 


1. 一 项 关于 居民 情况 的 调查 ,调查 人 员 根 据 手头 的 一 份 居民 户 名 单 抽 中 了 一 
批 样本 居民 户 ,如 果 调 查 时 不 能 耽误 样本 户 很 多 时 间 , 对 于 以 下 的 调查 项 目 ,判断 
是 否 有 必要 对 样本 居民 户 中 的 居民 进行 再 抽样 : 

(1) 居民 性 别 比 ; 

(2) 对 甲 A 足球 队 下 次 比赛 各 队 名 次 的 预测 ; 

(3) 人 均 月 用 水 量 ; 

《4) 对 汽车 品牌 认 知 度 。 

2. 某 高 校 欲 利用 二 阶 抽样 方 法 调查 下 述 指标 ,请 你 分 别 选择 两 个 阶段 合适 的 
抽样 单元 ,并 叙述 理由 。 

(1) 全 校 学 生 拥有 的 电脑 数 ; 

(2) 为 了 学 习 英 语 ,平均 每 位 同学 拥有 的 各 种 英语 教学 书籍 ; 

(3) 测试 男生 平均 每 分 钟 以 污 撑 次 数 。 

3. 某 高 校 学 生 会 欲 对 全 校 女 生 拍 摄 过 个 人 艺术 照 的 比例 进行 调查 。 全 校 共有 
女生 宿舍 200 间 ,每 间 住 6 位 同学 。 学 生 会 的 同学 运用 二 阶 抽样 设计 了 抽样 方案 ， 
从 200 间 宿 会 中 抽取 了 10 间 样 本 宿舍 ,在 每 间 样 本 宿舍 中 抽取 了 3 位 同学 分 别 进 
行 单独 访问 ,两 个 阶段 的 抽样 都 是 简单 随机 抽样 ,调查 的 结果 如 下 : 


样本 宿舍 拍照 人 数 样本 宿舍 拍照 人 数 




















mb me 
= 








1 

， 0 

8 1 
1 

0 


ww 一 





试 估计 拍摄 过 个 人 艺术 照 的 女生 的 比例 ,并 给 出 估计 的 标准 差 。 
4. 上 题 中 ,学 生 会 对 女生 勤 工 助 学 月 收入 的 一 项 调查 中 ,根据 以 往 同 类 问题 
的 调查 ,宿舍 间 的 标准 差 为 St = 326 元 ,宿舍 内 同学 之 间 的 标准 差 为 S, = 188 元 。 
以 一 位 间 学 进行 调查 来 计算 ,调查 每 个 宿舍 的 时 间 c! 为 10 分 钟 ,调查 每 一 位 学 生 
的 时 间 :为 1 分钟, 为 了 调查 需要 做 各 方面 的 准备 及 数据 计算 等 工作 ,所 花费 的 时 
间 是 co 为 4 小 时 ,如 果 总 的 时 间 控制 在 8 小 时 内 , 则 最 优 的 样本 宿舍 和 样本 学 生 数 
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为 多 少 ? 


5. 某 居委会 和 欲 了 解 居民 健身 活动 情况 ,如 果 已 知 该 居委会 有 500 名 居民 ,在 所 
属 10 个 单元 中 抽出 了 4 个 单元 ,然后 在 样本 单元 中 分 别 抽出 若干 居民 ,两 个 阶段 
的 抽样 都 是 简单 随机 抽样 ,调查 了 样本 居民 每 天 用 于 健身 活动 的 时 间 结 果 如 下 (以 


10 分 钟 为 1 个 单位 ): 








单元 (i) 居民 人 数 (M.) 样本 量 (m;) 时 间 (yy) 
1 32 4 4,2,3,6 
2 45 5 2,2,4,3,6 
3 36 4 3,2,5,8 
4 54 6 4,3,6,2,4,6 














试 估计 居民 平均 每 天 用 于 欠 炼 的 时 间 ,并 


《1) 简单 估计 量 ; 
(2) 比率 估计 量 ; 





给 出 估计 的 标准 差 。 


(3) 对 两 种 估计 方法 及 估计 结果 进行 评价 。 
6. 某 公司 欲 了 解职 工 上 班 交 通 所 需 时 间 ,该 公司 共有 5 个 部 门 ,根据 每 个 部 门 





的 人 数 采用 PPS 抽样 抽出 2 个 部 门 ,并 
名 职工 ,调查 的 结果 如 下 : 








fF 在 2 个 部 门 中 采用 简单 随机 抽样 分 别 抽出 5 





时 间 C 分 全 》 





部 门 {i) | 职工 人 数 (M.) 
1 


2 


20 
35 





40,10,20,30,40 
60,30,20,60,30 





试 估计 该 公司 职工 上 班 交通 平均 所 需 时 间 , 并 给 出 估计 的 标准 差 。 
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前 面 各 章 介绍 的 几 种 抽样 技术 中 ,大 都 需要 事先 了 解 一 些 关于 总 体 的 信息 , 例 
如 分 层 抽样 需要 事先 知道 各 层 权 重 ,比率 估计 和 回归 估计 中 需要 知道 总 体 的 某 些 
辅助 信息 ,但 在 一 些 情况 下 ,这 些 资料 在 调查 前 无 法 预知 ,这 时 ,我 们 可 以 先 从 总 体 
中 抽取 一 个 大 的 初始 样本 ,从 面 获 得 总 体 的 辅助 信息 ,然后 再 从 初始 样本 或 从 总 体 
中 再 抽 一 个 子 样本 ,这 种 方法 就 是 二 重 抽样 。 本 章 第 一 节 介绍 二 重 抽样 的 定义 、 作 
用 及 其 与 两 阶段 抽样 的 区 别 , 第 二 节 介绍 为 分 层 抽 样 进行 的 二 重 抽样 ,第 三 节 介 绍 
为 比率 估计 进行 的 二 重 抽样 ,第 四 节 介 绍 为 回归 估计 进行 的 二 重 抽样 。 

















$9.1 引 吉 


一 定义 
二 重 抽 样 (double sampling), 也 称 二 相 抽 样 或 两 相 抽 样 (two 一 phase 
sampling) ,是 指 在 抽样 时 分 两 步 抽取 样本 ,一 般 情况 下 , 先 从 总 体 N 中 抽取 一 个 较 
大 的 样本 n', 称 为 第 一 重 ( 相 ) 样本 (the first phase sample) ,对 之 进行 调查 以 获取 
总 体 的 某 些 辅助 信息 ,为 下 一 步 的 抽样 估计 提供 条 件 ;然后 进行 第 二 重 ( 相 ) 抽样 
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(the second phase sampling)。 第 二 重 抽样 所 抽 的 样本 ”相对 较 小 ,但 是 第 二 重 抽样 
调查 才 是 主 调查 ,一 般 地 ,第 二 重 样本 (the second phase sample) 是 从 第 一 重 样 本 中 





抽取 的 ,也 即 第 一 重 样本 的 子 样本 














,但 有 时 也 可 以 从 总 体 中 独立 地 抽取 。 由 于 样本 
是 分 两 次 抽取 的 ,因此 称 做 二 重 抽样 。 








例如 , 欲 对 某 城市 体育 场馆 的 营业 状况 进行 抽样 调查 ,鉴于 不 同 场馆 功能 和 面 








积 差异 较 大 , 拟 采用 分 层 抽样 ,但 由 








于 缺乏 分 层 资 料 , 故 先 随机 抽 选 一 个 较 大 的 样 


本 ,对 该 样本 仅 进 行 分 层 及 进行 层 权 估计 ,费用 相对 较 低 ;然后 利用 第 一 次 调查 获 
得 的 分 层 资 料 ,进行 一 次 较 小 样本 的 分 层 抽样 ,对 该 样本 进行 一 次 正式 调查 。 这 就 


是 二 重 抽样 。 


显然 ,二 重 抽样 方法 也 可 以 推广 








-到 多 次 抽取 样本 ,然后 结合 起 来 对 总 体 的 有 关 











标志 值 进行 估计 ,这 就 是 多 重 抽样 或 多 相 抽样 本 章 主要 讨论 二 重 抽样 。 


二 二 重 抽样 与 两 阶段 抽样 


二 重 抽样 和 两 阶段 抽样 ,在 名 称 上 很 容易 引起 混淆 。 虽 然 二 者 都 可 被 视 为 一 科 
分 段 抽样 方法 ,但 是 二 重 抽样 和 二 阶段 抽样 的 差异 还 是 很 显著 的 。 首 先 , 两 阶段 抽 
样 (two-stage sampling) 是 先 从 总 体 N 个 单元 (初级 单元 ) 中 抽出 = 个 样本 单元 , 却 








不 对 这 个 样本 单元 中 的 所 有 





ii 王 正 水 


排序 ,分 层 .抽样 或 估计 等 .其 次 、 











BE 


构造 第 二 阶段 抽样 的 抽样 框 。 


若干 个 二 级 单元 进行 调查 ; 二 重 抽样 则 不 同 , 要 对 第 一 重 ( 相 ) 样本 (the first 
ase sample) 进行 调查 以 获取 总 体 的 某 些 辅助 信息 ,并 且 要 利用 这 些 辅助 信息 进 





\ 单 元 (二 级 单元 ) 都 进行 调 但 ,而 是 在 其 中 再 

















两 阶段 抽样 的 第 二 阶段 抽样 单元 和 第 一 阶段 


单元 往往 是 不 同 的 ,比如 第 一 阶段 抽样 单元 是 居委会 ,第 二 阶段 抽样 单元 是 住 
;而 二 重 抽样 的 第 二 重 样本 则 往往 是 第 一 重 样本 的 子 样本 ,两 次 抽样 的 单元 是 相 
的 。 也 就 是 说 ,二 重 抽样 要 有 一 份 最 终 单元 的 完整 名 册 ( 总 体 所 有 单元 的 抽样 
,而 两 阶段 抽样 只 是 需要 第 一 阶段 单元 (初级 单元 ) 名 册 , 然 后 在 中 选 的 初级 单 





例如 ,如 果 某 城市 想 做 一 次 消费 调查 ,只 有 一 份 总 户 肌 , 没 有 任何 分 类 信息 , 调 


查 时 先 取 一 个 住户 的 大 样本 调查 分 层 信 


,再 利用 分 层 信息 从 中 抽取 小 样本 进行 





详细 调查 ,这 是 二 重 抽样 ,6 如 果菜 市 没有 总 户 骨 ,但 有 居委会 名 册 , 抽 样 时 先 抽取 居 











委 会 ,再 从 居委会 中 抽取 住户 ,对 其 











进行 调查 ,这 是 两 阶段 抽样 。 





三 、 二 重 抽样 的 作用 
{ 一 ) 有 助 于 姓 选 主 调查 对 象 


在 一 些 调查 中 ,调查 对 象 只 是 总 体 中 的 一 个 部 分 , 且 与 其 他 单元 不 易 区 分 。 例 
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如 对 菜品 牌 化 妆 品 的 用 户 进行 信 户 调查 ,调查 前 并 不 知道 该 样本 是 否 为 调 在 对象; 
再 如 在 一 项 办 公 自 动 化 设备 油 查 中 ,要 求 调查 单元 的 微机 、 复 印 机 与 传真 机 等 办 公 
自动 化 设备 的 使 用 情况 ,但 事先 也 不 好 确定 哪些 单元 一 定 有 这 些 设备 ,这 时 ,就 可 
以 采用 二 重 抽样 , 先 从 总 体 中 抽取 一 个 大 样本 ,通过 相对 比较 简单 的 调查 测试 ,得 
选 出 满足 条 件 的 对 象 ,从 中 百 抽样 进行 进一步 的 主 凋 查 。 

(二 ) 节约 调查 费用 

对 于 一 项 大 规模 的 多 指标 调查 ,由 于 单元 之 间 的 差异 或 对 目标 量 估计 的 精度 
要 求 不 同 , 往 往 并 不 需要 相同 的 样本 量 。 例 如 在 城市 居民 的 住户 家 计 调 查 中 ,对 家 
用 耐用 品 ,旅游 开支 等 指标 的 油 查 ,要 达到 一 定 的 精度 需要 较 大 的 样本 量 ; 而 对 家 
庭 日 用 品 、 粮 食油 盐 次 醋 开 支 等 指标 的 调查 ,由 于 其 差别 较 小 ,因此 要 达到 同样 的 
精度 ,其 样本 量 就 不 必 很 大 。 这 时 可 以 采用 二 重 抽样 , 先 抽取 一 个 大 样本 ,对 差异 较 
大 的 项 目 或 精度 要 求 比较 高 的 项 目 进行 调查 ,然后 再 抽 一 个 较 小 的 样本 ,对 差异 较 
小 的 项 目 进行 调查 , 则 可 在 保证 一 定 精度 的 前 提 下 节约 调查 费用 。 

(三 ) 提高 抽样 效率 

许多 抽样 技术 都 需要 利用 已 有 的 辅助 信息 来 提高 抽样 效率 ,例如 分 层 随 机 抽 
样 需要 事先 将 总 体 单元 进行 分 层 , 知 道 层 权 ; 比率 估计 或 回归 估计 则 需要 知道 有 关 
辅助 变量 的 总 体 总 和 或 均值 。 然 而 并 非 任何 时 候 都 能 够 获得 所 需要 的 总 体 辅助 信 
息 , 这 时 采用 二 重 抽样 方法 , 先 抽取 一 个 较 大 的 样本 以 获取 有 用 的 信息 ,然后 再 抽 
取 一 个 较 小 的 样本 做 出 改进 的 估计 ,就 是 一 个 提高 抽样 效率 的 可 行 选择 需要 指出 
的 是 ,在 抽取 第 一 重 样本 时 需要 增加 一 定 的 费用 ,只 有 当 利用 这 些 信息 进行 分 层 抽 
样 ,在 比率 估计 和 回归 估计 时 提高 精度 的 得 益 大 于 所 增加 的 费用 时 ,采用 二 重 抽样 
才 是 合算 的 。 

{四 ) 可 用 于 研究 样本 轮换 中 的 某 些 问题 

许多 调查 需要 经 常 性 地 定时 进行 ,如 农 产 量 调查 、 家 计 调 查 等 ,需要 对 同一 总 
体 进行 连续 抽样 在 连续 抽样 中 ,利用 连续 时 间 序 列 样本 不 同时 间 的 指标 值 之 间 的 
相关 性 可 以 提高 估计 的 精度 ,但 是 长 期 使 用 固定 样本 单元 , 则 会 由 于 样本 疲劳 或 样 
本 老化 的 现象 而 影响 调查 的 质量 ,这 时 则 可 以 采用 样本 轮换 (sample rotation) 的 方 
靶 以 提高 估计 精度 在 样本 轮换 问题 的 研究 中 二 重 抽样 方法 有 很 好 的 应 用 。 

(五) 降低 无 回答 偏 集 

高 无 问答 率 及 其 递增 的 趋势 一 直 困扰 着 调查 行业 。 在 对 无 回答 的 补救 方法 中 ， 
二 重 抽样 方法 受到 广泛 的 注意 。 这 种 方法 的 思想 是 ,对 最 初 的 无 回答 进行 再 一 次 的 
随机 抽样 ,对 无 回答 子 样本 采用 更 细致 ,更 艰巨 的 努力 去 获得 其 数据 ,用 第 一 次 样 
本 的 回答 数据 和 第 二 次 样本 数据 进行 估计 ,以 消除 无 回答 的 偏 科 影响 ,改善 对 总 体 
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的 估计 效果 。 无 回答 的 二 级 抽样 方法 经 常用 于 邮寄 调查 , 因为 这 种 调查 的 回答 率 
低 ,并 且 通 过 喝 多 的 加 倍 努力 《电话 或 访问 ) 可 以 从 无 回答 子 样本 中 得 到 较 高 的 回 
答 百 分 比 。 





$9.2 为 分 层 的 二 重 抽样 


分 层 抽样 是 一 种 应 用 广泛 的 抽样 方法 ,但 进行 分 层 抽样 有 一 个 前 提 , 即 需要 将 


总 体 N 个 单元 划分 成 个 互 不 重 羡 的 层 , 而 和 且 需 要 知道 各 层 的 权重 W = 总 .如 
果 事 先 无 法 知道 总 体 的 层 权 ,可 以 采用 二 重 抽样 方法 。 








一 \ 符 号 说 明 
用 下 标 h 表示 层 数 ,h = 1,2,…,L。 
总 体 第 有 层 的 单元 数 : N; 


总 体 单元 数 :NN = Sm 
第 一 重 样本 第 h 层 的 单元 数 : ny 


第 一 重 样本 单元 数 ;n” = = 
第 二 重 样本 第 h 层 的 单元 数 ; 


第 二 重 样本 单元 数 :mn = 这 2 





总 体 单元 第 层 的 权重 : W， = 站 


第 一 重 样本 第 h 层 的 权重 :wx = 滁 








第 二 重 样本 第 h 屋 的 抽样 比 ; fp = 形 ,0< fo&l1 
第 二 重 样本 第 有 层 7 单元 的 观测 值 :gw ,7 = 1,2,… ,nh = 12 
第 二 重 样本 入 h 层 样本 音 元 的 平均 数 ,又 = 二 ys 


总 体 方差 :S? 
第 上 层 的 总 体 方差 : S3 
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第 一 重 样本 第 h 层 方差 :gg2 
第 二 重 样本 第 h 层 方差 : :3 = 





上 


7 一 工 





> (Wj 一世 》 
二 、 抽样 方法 
第 - 步 : 利 用 简单 随机 抽样 ,从 总 体 的 N 个 单元 中 随机 抽取 第 一 重 样本 ,样本 
单元 数 为 n ;根据 已 知 的 分 层 标志 将 第 一 重 样本 分 层 , 今 wx = 从 (CA = 于 2 
工 ), 则 ws 是 总 体 层 权 W 的 无 偏 估计 。 

第 二 步 : 利 用 分 层 随机 抽样 ,从 第 一 重 样本 中 抽取 出 第 二 重 样本 ,样本 单元 数 


为 ，, 第 层 样本 单元 数 为 由 = 六 mu 



































三 ,合计 量 及 其 性 质 
(一 ) 均值 估计 量 
采用 二 重 分 层 抽样 ,对 总 体 均值 了 的 估计 量 为 : 





Dp = (9.1) 
{二 ) 估计 量 fo 的 性 质 
性 质 1 ”估计 量 3p 是 Y 的 无 偏 估计 。 即 
(Xp) = 了 (9.2》 
证 明 :第 二 重 样本 是 利用 分 层 随 机 抽样 从 第 一 重 样本 中 抽出 的 子 样本 ,因此 第 
二 重 样本 第 有 层 样本 均值 纺 是 第 一 重 样本 第 A 层 均值 y'; 的 无 偏 估计 , 即 EE( 专 ) = 


ho 则 在 两 次 抽样 下 : 
L 
E(3p) = Ei[E2(3sp)]= ba] 
从 














= Bm)= El(y)= 7 
性 质 2 yp 的 方差 为 : 
2 
Ven) = (声调 + 马车 (起 -1 (9.3) 
式 中 ,S? 为 总 体 方差 ;53 为 第 h 层 的 总 体 方差 ;fin 为 第 二 重 样本 第 h 层 的 抽样 比 。 
性 质 3 VF) 的 样本 估计 量 为 ， 
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v0) = 立 ( 寺 -二 je (出 -再 局 wo) .4) 


nm 


式 中 ,wv(5s0) 为 V(3an) 的 近似 无 仿 估 计 ; 吕 为 第 二 重 样本 第 层 方差 。 
当 二 重 抽样 比例 和 入 都 可 以 忽 路 不 计时 ,(9.4) 式 可 简化 为 





L0282 
vp) ~ (9.5) 

{ 例 9.1】 某 银行 要 润 查 其 客户 的 资产 情况 .已 知 该 银行 的 客户 数 为 8 000， 
针对 客户 规模 差异 较 大 的 特点 , 拟 采用 分 层 抽样 。 但 由 于 缺乏 现 有 的 分 层 资料 , 决 
定 采 用 二 重 分 层 抽样 方法 。 第 一 重 样本 量 x” = 1 000 ,根据 其 自 报 的 资产 情况 可 分 
为 4 层 : 第 一 层 为 300 万 元 以 下 ;第 二 层 为 300 万 元 一 1 000 万 元 ;第 三 层 为 1 000 万 
元 ~ 2 000 万 元 ;第 四 层 为 2 000 万 元 以 上 。 然 后 在 第 一 重 样本 分 层 的 基础 上 ,在 各 
层 分 别 抽取 第 二 重 样本 。 第 二 重 样本 量 ”= > = 200。 对 这 200 个 客户 进行 详 


An 


细 的 调查 ,取得 有 关 数 据 整理 如 表 9.1, 试 佑 计 该 银行 所 有 客户 的 资产 总 额 及 其 抽 
样 标准 误差 。 




















于 9.1 某 银行 客户 的 样本 数据 
一 样本 均值 (及) 2 
分 层 第 一 重 样本 | 第 二 重 样本 | “ ( 百 万 元 》 2%| 3 

300 万 元 以 下 540 中 2 400 1.01 
300 万 元 ~ 1000 方 元 320 多 7 3 100 2.71 
1000 万 元 ~ 2 000 万 元 100 40 15 9600 | 15.38 
2.000 万 元 以 上 0 20 可 45 120 | 690.53 
合计 1 000 200 




















解 :根据 表 9.1, 可 计算 各 层 的 权重 : 
wi=0.54 wis=0.32 wi=0.10 wi=0.04 
(1) 根据 式 (9.1), 该 银行 客户 的 平均 资产 额 估计 为 : 
4 
up = 之 
= 0.54x2+0.32x7+0.10x15+0.04x40 


= 6.42( 百 万 元 ) 
该 银行 共有 8 000 个 客户 , 故 全 部 客户 资产 总 额 为 : 


Y = Nysp = 8 000 x 6.42 = 51 360( 百 万 元 ) 
200 








(2) 根据 式 (9.4) ,Fup 的 方差 估计 为 ; 

vo) = 袜 人 -二 je 人 二- ts, -yo 
> (二 - 去 ji = (而 - 吉 } 人 0 54)2(1.0D 
二 ~- 到)(0.327(2.70 
二 - 击 J@ 1)2(15.38) 
店 一 谢 }<004)?(690.53) 


2 
(二 -5 Dp)? = (rt 0 -8 stoo) to: 54(2 ~ 6.42)? 
+0.32(7 -6.42)2 + 0.1(15 ~ 6.42)> 
+0.04(40 — 6.42)?] 
= 0.055 239 
因此 ,wv(5sp) = 0.036 822 + 0.055 239 = 0.092 061 
该 银行 客户 资产 总 铬 的 抽样 标准 误 的 估计 ，; 


s(Y) = Ns(3e0) = NVv(3n) = 2 427.32 ( 自 万 元 ) 


四 、 二 重 分 层 抽 样 样本 量 的 最 优 分 配 

二 重 分 层 抽样 中 有 两 次 抽样 ,这 两 次 抽样 的 样本 量 , 即 x” 和 ,直接 影响 估计 
的 精度 。 第 一 重 抽样 a 越 大 ,对 分 层 信息 的 了 解 和 合计 就 越 精确 ,从 而 可 以 减少 全 
计量 的 方差 ;同样 ,第 二 重 抽样 x 越 大 ,合计 量 的 方差 越 小 调查 经 费 是 有 限 的 , 因 
此 需要 在 给 定 费用 的 条 件 下 ,选择 n“ 和 ,使 得 估计 量 的 方差 Y(3ep) 最 小 。 

假设 第 一 重 抽样 的 单元 平均 调查 费用 为 c1( 一 般 情况 下, 第 一 重 抽样 的 单元 
平均 调查 费用 都 比较 小 ) ,第 二 重 抽样 第 层 的 单元 平均 调查 费用 为 ca Ch = 1， 
2,…, 了 上 )。 忽略 其 他 费用 , 则 费用 函数 可 以 表示 为 : 


CT = cn + De (9.6) 
由 于 是 随机 变量 ， 所 以 选择 2 和 .fp 的 期 望 费用 C+ 为: 
Ct = E(Cr) = cn + Penfiom 《9.7) 
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根据 式 (9.3) ,总 体 均值 估计 量 的 方差 为: 
= {bile+r Wl 1 
V6) = (出 - 丙 + 如 2 (起 - 


各 
要 在 一 定 的 费用 约束 下令 估计 方差 最 小 化 , 则 有 
上 
L = Vgp) + A(CF -em 一 caajpyh) 
Ee 
L 


-人 


Al 天 


上 
+ A(CF cin’ — nD canfipWi) 
Pen 





由 ?4 = 0 及 3 = 0 得 


加 = Sh = | 盖 一 一 一 
ci(S2 — 2 HHS3) 
per 


， Cr 
n= 


L 
C1 + Dy canWrfip 
个; 





(9.8) 


{9.9) 


(9.10) 


在 实际 应 用 中 ,要 确定 最 优 的 x 和 .Ap ,需要 对 总 体 事先 有 一 定 的 了 解 ,例如 


对 S?, S$%, Wi 有 一 些 粗略 的 估计 。 


$9.3 ”为 比率 估计 的 二 重 抽样 








第 4 章 介 绍 了 比率 估计 方法 ,通常 只 要 目标 变量 与 辅助 变量 存在 较 好 的 正 相 


关 关 系 ,比率 估计 的 估计 精度 就 优 于 简单 估计 。 但 使 用 比率 估计 的 前 提 是 已 知 辅助 
变量 的 有 关 信 息 。 假 设 研究 的 变量 为 Y( 此 时 了 表示 目标 变量 ), 辅 助 变量 为 X( 此 
时 X 表示 辅助 变量 ) ,在 估计 总 体 均值 了 时 ,需要 辅助 变量 总 体 均 值 又, 才能 计算 


= 六 ;在 估计 总 体 总 量 了 时 ,需要 辅助 变量 总 量 X, 才 能 估计 六 = XxX。 在 实际 
工作 中 ,如 果 辅 助 变量 的 信息 未 知 ,可 以 利用 二 重 抽样 进行 比率 估计 。 本 节 以 对 总 


体 均值 了 的 估计 为 例 进 行 讨论 。 
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一 ,二 重 抽样 比率 估计 的 抽样 方法 
第 一 步 :从 总 体 的 N 个 单元 中 随机 抽取 第 一 重 样本 ,样本 单元 数 为 4 :对 于 第 
一 重 样本 , 公 观 测 辅助 变量 信息 ,用 销 助 变量 的 样本 均值 z” = 于 z' 估计 总 体 


均值 X。 
第 二 步 :从 第 一 重 样本 中 随机 抽取 出 第 二 重 样本 ,样本 单元 数 为 x; 对 于 第 二 


重 样本 ,观测 下 标 变量 与 辅助 变量 ,并 用 获得 的 7 和 工 , 计 算 尺 = 立 ,构造 比率 估 


计 。 











二 .二 重 抽样 的 比率 估计 及 其 性 质 
{ 一 ) 二 重 抽样 比率 估计 
二 重 抽样 对 总 体 均值 了 的 比率 估计 ， 

Dep = Ez” (9.11) 
式 中 ,5,z 分 别 为 第 二 重 样 本 目标 变量 与 辅 皮 变 量 的 样本 平均 数 ;z 为 第 一 重 样 
本 辅助 变量 的 平均 数 。 

{二 ) 二 重 抽样 比率 估计 的 性 质 

性 质 4 ”与 简单 随机 抽样 下 的 比率 估计 一 样 ,yen 是 个 有 偏 估计 ,其 伪 倚 随 着 
样本 量 的 增 大 而 缩小 。 当 第 二 重 样本 的 样本 量 ”足够 大 时 ,ko = 和 是 近似 无 偏 
的 。 即 








E(yp) EY (9.12) 
因为 在 第 二 重 样 本 的 足够 大 时 ,Es( 丰 ) ~ R', 其 中 恨 = 立 ,R” = 至, 所 以 
Elyro) = EilEa(yp)l = Ez EAR)] LE(y)= 了 
因此 ,Fn 是 了 了 的 近似 无 偏 估计 。 
性 质 5 ”二 重 抽样 比率 估计 的 方差 为 ， 
Vlgpp) = ViLE2(Fkrp)] + Er[l Vl snp)] 
~ Vily + E(x YVR)) 
(二 -直入 + (二)(s$ + RS: -2RSe) (9.13) 


nN n 
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通常 贞 可 忽略 ,因此 
V (gr) ~ 53 + 位- 二 )(CR2s3 -2RS,) (9.14) 


式 中 , 有，S3 ,Sn 分 别 为 Y 和 X 的 总 体 方差 和 总 体 协 方差 ,RR = 羡 。 

性 质 6 二 重 抽样 比率 估计 方差 的 样本 估计 ， 

3 人 (2 (9.15) 
式 中 ,使 用 日 标 变量 Y 的 第 二 重 样本 方差 呈 估计 总 体 方差 S?; 使 用 辅助 变量 X 的 
第 二 重 样本 方 莽 号 估计 总 体 方差 s3 ;使 用 了 和 X 的 第 二 重 样本 协 方差 se 估计 总 
体 苏 让 ;使 用 第 二 重 料 本 比例 R = 立 估计 总 体 比例 及 = 志 。 

【 例 9.2】 茶 住宅 小 区 其 有 200 个 住户 , 现 欲 估计 小 区 住户 家 庭 月 平均 收入 的 
平 沟 水 平家 庭 收 人 的 数据 不 易 调 查 ,而 家 庭 支出 的 资料 相对 容易 获取 ,而 且 家 放 
月 平均 收入 与 家 庭 月 平均 支出 之 间 强 相关 ,因此 氢 采用 二 重 抽样 比率 估计 方法 。 先 
从 住户 中 随机 机 到 100 个 住户 作为 第 一 重 样本 ,调查 家 庭 月 平均 支出 ,结果 家 庭 月 
平均 支出 的 样本 均值 为 1 500 元 ;然后 从 这 100 个 住户 中 随机 抽 选 10 户 作为 第 二 重 
样本 ,调查 家 庭 月 平均 收 人 和 家 庭 月 平均 支出 ,资料 见 表 9.2。 试 估计 该 小 区 家 许 
月 平均 收 人 ,并 计算 估计 量 标准 益 。 




















束 9.2 某 小 区 住户 家 庭 收 支 的 样本 数据 单位 :元 
» 家 庭 月 平均 支出 人 
本 住户 a TY 
1 1 500 | 2000 
2 1200 1 800 
3 2 000 2 800 
4 1 800 2 500 
5 1 300 1 900 
6 3 000 5 800 
7 S00 1 300 
8 1 400 2 000 
9 1 600 2300 
10 1100 1600 











解 :出 题 知 z” = 1 500, 由 表 9.2, 计 算 


了 =2400 = 1570,R = 1.5287 
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52 = 1613 333,52 = 371 222.2, ss, = 747 777.8 
根据 式 (9.11) ,该 小 区 住户 的 平均 家 庭 月 收入 估计 为 : 
5 = Tz’ = 1.528 7 x 1 500 = 2 293( 元 ) 

根据 式 (9.15), yw 的 方差 估计 为 ; 


vn) ~ + 国人 -2 ks) 
1613333 /1 1 2 
~ 1 侧 高 )a.328 7 x 371 222.2 
一 2 x 1.528 7 x 747 777.8) 
= 33 646.89 
yi 的 标准 差 的 估计 为 ; 


S(3an) = V up) = 183.43( 元 ) 


三 、 二 重 抽样 比率 估计 时 样本 量 的 最 优 分 配 

在 给 定 的 费用 条 件 下 ,选择 第 一 重 样本 量 n“ 和 第 二 重 样 本 量 n ,其 中 /为 抽 
样 比 , 使 得 估计 量 的 方差 V (sp) 最 小 。 

假设 第 一 重 抽样 的 单元 平均 调查 费用 为 cl ,第 二 重 抽样 的 单元 平均 调查 费用 
为 c2,h = 1,2,…, 上 假设 费用 函数 为 : 








CT = co ten= en +conf 《9.16) 
根据 式 (9.14) ,总 体 均值 估计 量 的 方差 为 : 
Vp) ~ TS? + (it -Bd)R?s? -2RS,) (9.17) 


因此 要 在 一 定 的 费用 约束 下 令 估 计 方差 最 小 化 , 则 有 
L= V(rp) +A(CT ~ cn’ — c2n'f) 


= s+ 仁 - 二 js —2RS») + A(CF — cin’ — can’f) 


(9.18) 
aL arL 
由 5 = 0 及 5 =0 得 
= ~ BR2e2 
cz(2RSw ~ R*S2) (9.19) 


_ 
”e+cr 
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§9.4 ”为 回归 估计 的 二 重 抽样 





与 比率 估计 相似 ,在 辅助 信息 未 知 时 可 以 采用 二 重 抽样 进行 回归 估计 。 以 下 简 
单 介绍 为 总 体 均值 了 的 回归 估计 进行 的 二 重 抽样 。 


一 二 重 抽样 回归 估计 的 抽样 方法 
第 一 步 ;从 总 体 的 N 个 单元 中 随机 抽取 第 一 重 样本 ,样本 单元 数 为 ” ;对 于 
一 重 样本 , 仅 观 测 辅助 变量 信息 x“;, 用 辅助 变量 的 样本 均值 z= 1 估计 其 


总 体 均值 X。 
第 二 步 :从 第 一 重 样本 中 随机 抽取 出 第 二 重 样 本 ,样本 单元 数 为 n; 对 于 第 二 
重 样本 ,观测 且 标 y 变量 与 辅助 变量 zi ,并 计算 7, 工 和 回归 系数 6 ,构造 回归 信 计 。 





a 



































二 、 二 重 抽样 的 回归 估计 及 其 性 质 





(一 ) 二 重 抽样 回归 估计 
二 重 抽样 对 总 体 均值 了 的 回归 估计 : 
Bp = 3+6(7 -I) (9.20) 
式 中 ,z 和 过 分 别 为 第 一 重 样本 和 第 二 重 样本 中 辅助 变量 的 平均 数 ;7 为 很 据 第 二 














重 样本 计算 的 目标 变量 的 样本 平均 数 ,5b 为 根据 第 二 重 样本 计算 的 yw 对 z; 的 回归 
系数 。 
{二 ) 二 重 抽样 回归 估计 的 性 质 
性 质 7 op 是 个 有 偏 估计 ,其 偏 倚 随 着 样本 量 的 增 大 而 缩小 。 当 第 二 重 样本 
的 样本 量 n 足够 大 时 ,yp = + 5(z 到) 是 近似 无 偏 的 。 即 
E(yp) ~ Y (9.21) 
E(5p) = EiEa(yp) = EEsy + 6b(z -Ely]=Y 
性 质 8 二 重 抽 样 回 归 估 计 的 方差 为 : 
VY(zp) = Vi[Ez(7pp)] + El Va( 5p)] (9.22) 
式 中 ,Vo(3op) ~ (直击 局 一 (二 -出 )(-p 过,3 = (1 一 p?) 坟 为 第 
一 重 样本 残 差 方差 ,其 均值 近似 等 于 总 体 残 差 方差 S? = (1 - 22)S3。 因 此 
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Vp) ~ VD+ (des) 


~ (小 -青史 + (二 - 岂 js30 -p63) 
1- 





~ - Db)ssp (9.23) 
性 质 9 一 重 抽样 回归 估计 方差 的 样本 估计 ， 
站 
Go) = 于 -二 - 岂 ]r (9.24) 


式 中 是 用 第 二 重 样本 的 方差 s2 估计 S3, 用 相关 系数 估计 p。 
【 例 9.3】 ”以 例 9.2 的 数据 ,用 二 重 抽样 进行 回归 估计 。 试 估计 该 小 区 家 庭 月 
平均 收入 ,并 计算 估计 量 标准 差 。 
解 :由 题 知 ”= 1 500, 由 表 9.2, 计 算 
3 = 2400, 茎 = 1 570, 相 关系 数 > = 0.966 26, 回 归 系 数 b = 2.014 
$2 = 1613333,s: = 371 222.2 
根据 式 (9.20) ,该 小 区 住户 的 平均 家 庭 月 收入 估计 为 : 
Snp = 5+b(z" — ZE) 
= 2 400 + 2.014 x (1 500 - 1 570) 
= 2 259.02( 元 ) 
根据 式 (9.24) ,um 的 方差 估计 为 : 
1 5) 252 


nn 六 














52 
von) = 3- ( 


_161333 /1 1 2 
= Le (mn 而 )*0.966 26 x 1 163 333 


= 25 766.13 
3n 标准 差 的 估计 : 
s(3n) = V vr0) = 160.52( 元 ) 
以 上 例子 只 是 用 于 说 明 估计 过 程 ,实际 应 用 中 ,二 重 样本 容量 ” 较 大 条 件 下 ， 
才能 有 效 消除 用 样本 回归 系数 进行 加 归 估 计 可 能 产生 的 偏 位。 





三 ,二 重 抽样 回归 估计 时 样本 量 的 最 优 分 配 
在 给 定 的 费用 条 件 下 ,选择 第 一 重 样本 量 ” 和 第 二 重 样本 量 nf, 其 中 /为 抽 
样 比 ,使 得 估计 量 的 方差 V(34p) 最 小 。 
假设 第 一 重 抽样 的 单元 平均 调查 费用 为 c: ,第 二 重 抽样 的 单元 平均 调查 费用 
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为 c2,h = 1,2,"…, 上 。 假 设 费用 函数 为 : 

Ci = en +co = cm tonf 
和 根据 式 (9.23) ,总 体 均值 估计 量 的 方差 为 : 

Vgp) 心 (出 -青史 + (二 ~ 击 js301 -2?) 
要 在 一 定 的 费用 约束 下 令 估计 方差 最 小 化 , 则 有 

L= Vip) + A(CF -cm — can'f) 

= (二 一 起 十 仁 一 二 js 一 90)+ACC co 一 con 
(9.26) 


(9.25) 


由 3 = 0 及 和 5 = 0 得 


.fal-py) 
f= cp 


Cr Cip 


A = = 
| cc cip + cca(l - 20) 





小 结 


本 章 介绍 了 二 重 抽样 的 理论 及 不 同 目 的 下 二 重 抽样 的 估计 方法 和 样本 量 的 分 
配 。 二 重 抽样 的 主要 特点 是 分 两 步 进行 抽样 ,每 步 都 抽取 一 个 样本 ,而且 对 每 个 祥 
本 都 要 获取 信息 。 二 重 抽样 有 多 种 用 途 ,如 有 助 于 筛选 主 调 查 对 象 .节约 调查 费用 ， 
提高 调查 效率 ,降低 无 回答 偏 倚 .研究 样本 轮换 等 。 

二 重 分 层 抽样 中 有 两 次 抽样 ,这 两 次 抽样 的 样本 量 , 即 a” 和”, 直接 影响 估计 
的 精度 。 在 给 定 的 费用 条 件 下 ,选择 n 和 应 使 得 估计 量 的 方差 最 小 。 





本 章 附录 。 二 重 抽样 公式 的 证 明 


1. 分 层 二 重 抽样 估计 的 方差 (9.3) 式 的 证 明 。 
up 的 方差 为 ; 


Vssp) = 全 -s+ > Wi (4 - 1) 


At 于 
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式 中 ,S? 为 总 体 方差 ; S3 为 第 层 的 总 体 方差 。 


i 


证 明 : V(3sp) = Vi Be] | 
当 ww 固定 时 ,Es( 弘 ) = 束 。 故 有 
ve )| = von- 他 -je 
式 中 ,S? 为 总 体 方差。 
当 wij 固定 时 ,对 第 一 重 样本 第 人 层 方 差 %2, 有 E1(si?) = SE。 
ml vn)| =E: | 

















-二 人 优 - 
= 志 袜 (高 -1jEiEi(afs2 1 i 国定 ) 
= 2 立 ( 夺 - i) (wtSH) 
ho 1 ORO 
-家 2 有 二- 
因此 YGu) = (声调 ]s?+ 名 Wi (4 -了 
2. 二 重 抽样 回归 估计 的 方差 (9.23) 式 的 证 明 。 
vGay= 旦 -位 - 志 js3e 


证 明 : V(zp) = Wi[Ea( 和 op)]+ 开 I[Vz(yo)] 
式 中 ,Va(3p) 守 (十 -出 疗 = 全 -十 )G -6 有 = (1-p9) 呈 为 第 


nn 


一 重 样本 残 差 方差 ,其 均值 近似 等 于 总 体 残 差 方差 S: = (1 - p?) S23。 因 此 
Vs) ~ w+ (3 -bE(s) 
(六 - 广 以 + 位 -二 sa- 内 
3 _ /1_1 
~ 让- 
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因此 VC(yep) 天 


习 题 


a 


Ss _ /1_ Lo 
Bi Cede 


1. 某 县 欲 调查 棉花 的 播种 面积 ,为 及 时 获取 数据 , 拟 采 用 二 重 抽样 方法 。 全 县 


共有 2 000 个 村 , 先 抽取 500 个 村 作为 第 一 和 





外 样本 ,并 根据 村 的 大 小 进行 分 层 ; 然 后 


在 各 层 中 等 比例 抽取 15 的 村 ,作为 第 二 重 样 本 ,分 别 调查 棉花 的 种 植 面积 ,有 关 


数据 如 下 : 





村 规模 


第 一 重 样本 第 二 重 样本 


2% 





50 户 以 下 
50 户 一 99 户 
100 户 一 199 户 
200 户 ~ 299 户 
300 户 以 上 





85 17 
125 25 
140 28 
110 22 
40 8 





490 
1 806 
4 423 
5 607 
4 101 
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试 估计 全 县 棉花 的 种 植 面积 ,并 计算 估计 量 标准 差 。 

2. 现 有 总 调查 费用 3 000 元 , 拟 用 来 做 一 次 比例 估计 的 调查 。 假 设 每 一 个 抽样 
10 元 , 氢 采 用 二 重 分 层 抽 桩 ,第 一 重 样 本 用 于 分 层 , 每 个 抽样 单 
元 的 分 层 费 用 是 0.25 元 。 已 知 总 体 分 为 两 层 ,而 且 两 层 的 权重 相等 。 假 如 第 一 层 的 


单元 的 调查 费用 为 


真实 比例 为 0.2, 第 二 层 的 真实 比例 为 0.8( 假 设 抽样 比 睾 和 





革 均 可 忽略 不 计 )。 


(1) 试 确定 二 重 抽样 中 最 优 的 x» 和 ,以 及 由 此 所 得 的 V( psyp); 





《2) 试 比较 二 村 


在 全 地 区 1 238 个 村 





分 层 抽样 与 不 分 层 的 简单 随机 抽样 嘱 个 抽样 效率 高 ; 
(3) 假设 每 个 单元 的 调查 费用 为 c: ,每 个 单元 的 分 层 费 用 为 cl ,诚信 计生 达到 


多 少时 二 重 抽样 的 费用 效率 高 于 简单 随机 抽样 。 
3, 某 地 区 预 估计 和 牛 的 年 末 头 数 ,以 上 一 次 的 普查 数 作为 辅助 变量 。 但 由 于 行 
政 区 划 的 变动 ,上 次 该 地 区 普查 的 总 头 数 已 不 能 利用 , 故 采用 二 重 抽样 的 方法 , 先 








h 抽 500 个 村 ,得 到 上 期 普查 数据 为 平均 每 村 有 和 牛 602 头 ,然后 





又 抽取 第 二 重 样本 为 24 个 村 ,分 别 取得 上 次 普查 头 数 和 当年 的 年 末 头 数 .其 资料 


如 下 ， 
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_ 样 本 普查 头 数 年 末 头 数 普查 头 数 年 末 头 数 
f 623 654 13 706 707 
2 690 696 14 1795 1890 
3 534 530 15 1 406 1123 
4 293 315 16 18 115 
5 69 78 17 330 375 
6 842 640 18 218 212 
7 475 692 19 160 147 
8 371 292 20 210 297 
9 161 210 2l 262 401 
10 298 555 2 204 252 
11 2 045 2110 23 i85 199 
12 1 069 592 24 5714 | 564 

(0D 试用 二 重 比率 估计 法 估计 该 地 区 年 未 牛 的 总 头 数 及 其 估计 的 标准 差 ; 
(2) 使 用 二 重 回归 估计 法 估计 该 地 区 年 末 牛 的 总 头 数 及 其 估计 的 标准 差 ; 
(3) 比较 回归 估计 和 比率 估计 的 效率 ,并 做 简要 分 析 。 


4. 在 二 重 回归 抽样 中 ,如 果 p = 0.8, 假 如 由 于 第 一 重 样本 的 均值 的 抽样 误差 
使 精确 度 的 损失 必须 小 于 10% , 则 相对 于 ， 来 说 ,= 必须 多 大 ? 
5. 在 二 重 回归 抽样 中 ,假设 已 知 第 一 重 抽样 的 样本 量 ”= 500, 第 二 重 抽 样 的 


样本 量 x” = 100。 而 且 对 第 二 各 


样本 ,有 


DC% 3) = 17283, > (nr 了)2 = 3248 


Dy ~ $)(x; ~ x) 
请 计算 Y 的 二 重 加 归 估 计量 的 
区 预 调查 居民 上 网 


6. 某 小 | 








=5114 
标准 差 。 
情况 ,为 估计 居民 平均 月 上 网 时 数 , 现 有 两 种 抽样 


方案 :一 种 是 简单 随机 抽样 ,在 有 限 的 条 件 下 ,只 能 抽 100 个 样本 ,v3,) = 6.2; 
另 一 种 是 二 重 分 层 抽样 ,第 一 重 样本 用 于 分 层 ,将 居民 按 月 平均 
低 收 入 层 (入 1 500 元 ) 和 高 收入 层 ( > 1 500 元 ) , 设 第 一 重 样本 平均 分 层 费 用 为 
clo 已 知 总 体 数据 如 下 : 


必 信 分 为 两 层 ,中 




















层 TW 3 S, ¥ 
中 低 收入 层 0.786 312 17.7 19,404 
高 收入 层 0.214 922 30.4 51.626 

总 体 一 620 一 26.300 














假定 总 调查 费用 Cr 为 100. 第 二 重 样本 平均 调查 费用 cx = 1, 设 号 可 以 忽略 
不 计 。 


(1) 如 果 cl = 诡 , 试 计算 二 重 抽样 的 术 本 最 优 分 配方 案 ， 并 计算 得 到 的 








VDp); 
(2) 让 为 何 值 时 ,二 重 抽样 的 精度 高 于 简单 随机 抽样 
7. 设 总 体 包含 大 小 相等 的 了 上 个 层 ,对 它 采用 分 层 二 重 抽样 ,假设 N 很 大 , 昌 第 
二 重 抽样 的 抽样 比 对 各 层 尼 为 常数 y。 试 证 分 层 二 重 抽样 估计 量 5p 的 方差 
V(3sp) 满足 : 
i 
mV(3p) 王强 + 号 二 六 ( 甩 - 了 7 


4=1 











式 中 ,58 = 十 S32。 
f 
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第 10 章 














RON 


复杂 样本 的 方差 估计 























在 前 面 各 章 中 ,我 们 介绍 了 几 种 最 基本 的 抽样 方法 ,并 且 讨论 了 在 这 几 种 基本 
抽样 方法 下 比较 简单 的 方差 估计 问题 。 但 是 ,实际 调查 中 所 面临 的 情况 要 复杂 得 
多 。 首 先 ,实际 调查 中 所 使 用 的 抽样 方法 常常 不 是 简单 的 一 种 ,而 是 这 些 最 基本 抽 
样 方法 的 组 合 ,其 估计 公式 比较 复杂 。 其 次 ,在 实际 调查 中 抽样 的 具体 实施 可 能 会 
与 最 初 的 抽样 设计 有 一 定 的 差距 , 因而 所 得 样本 是 非常 复杂 的 ,可 称 之 为 复杂 样 
本 。 这 样 ,按照 一 般 的 方法 进行 复杂 样本 的 方差 估计 就 十 分 困难 。 

本 章 首先 对 复杂 样本 调查 和 复杂 样本 的 方差 估计 作 简单 概述 ,然后 分 别 介绍 
几 种 复杂 样本 的 方差 估计 方法 ,包括 随机 组 方法 、 平 衡 半 样 本 方法 、 刀 切 法 以 及 素 
勒 级 数 法 ,最 后 对 这 些 方法 进行 比较 总 结 。 





$10.1 引 言 


一 、 揽 杂 样本 调查 的 特点 
复杂 样本 就 是 从 一 个 复杂 抽 祥 调查 所 得 到 的 样本 。 复 杂 抽 样 调查 主要 有 以 下 
两 个 特点 。 
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一 是 抽样 设计 复杂 。 复 杂 抽 样 设计 经 常 包括 分 层 、 多 阶段 抽样 ,不 等 概率 抽样 、 
二 重 抽样 及 多 个 抽样 框 抽样 等 内 容 。 
二 是 调查 估计 量 复 杂 。 复 杂 调 查 估计 量 常常 包括 比率 估计 或 回归 估计 等 非 线 
性 估计 量 。 有 时 需要 对 数据 进行 一 些 调整 ,例如 无 回答 的 加 权 调 整 或 插 补 处 理 、 调 
整 离 群 值 等 ,这 些 调整 显然 会 增加 调查 统计 量 的 复杂 程度 。 
此 外 ,复杂 样本 调查 还 可 能 涉及 多 变量 问题 ,包含 数 十 个 甚至 数 百 个 感 兴趣 的 
指标 ,并 且 调 查 的 规模 大 ,范围 广 。 














二 复杂 样 本 方差 估计 考虑 的 因素 
抽样 调查 工作 者 一 般 面 临 着 两 个 必须 解决 的 问题 :一 是 构造 一 个 合适 的 统计 
量 , 对 感 兴趣 的 总 体 指标 (参数 ) 进行 估计 ;二 是 对 每 个 估计 量 的 精度 进行 度量 对 
精度 的 度量 最 常用 的 是 调查 估计 量 的 方差 .一般 地 讲 ,方差 是 未 知 的 ,只 能 从 调查 
数据 本 身 来 估计 .调查 统计 量 的 方差 是 由 统计 量 本 身 的 形式 和 抽样 方案 设计 的 性 
质 这 下 方面 决定 的 。 
那么 ,对 于 一 个 复杂 样本 ,怎样 为 调查 估计 重 选 择 一 个 合适 的 方差 估计 呢 ? 这 
是 一 个 相当 困难 的 问题 , 它 涉及 方差 估计 的 精度 .费用 和 时 间 以 及 操作 的 简便 性 等 
因素 ,调查 工作 者 要 综合 考虑 这 些 因素 并 做 出 一 定 的 权衡 。 

{ 一 ) 精度 

方差 估计 量 的 精度 可 用 许多 方法 衡量 ,一 个 重要 的 度量 是 方差 佑 计量 的 均 方 
误差 (MSE) 。 按 照 这 个 标准 ,具有 最 小 均 方 误差 的 估计 量 最 好 。 由 于 方差 估计 值 经 
常 要 用 来 构造 主要 调查 参数 的 区 间 估 计 , 所 以 精度 的 第 一 个 标准 必须 与 得 到 的 区 
闻 的 质量 有 关 , 最 好 是 给 出 最 优 区 间 和 估计 的 方差 估计 量 ,然而 ,这 些 标准 之 间 可 能 
存在 着 矛盾 。 此 外 ,调查 可 能 包括 多 变量 .时间 序列 和 对 调查 数据 的 其 他 统计 分 析 ， 
这 时 应 选用 对 要 进行 的 分 析 有 最 佳 统计 性 质 的 方差 估计 量 。 一 般 地 ,由 于 对 相同 数 
据 的 不 同 分 析 要 用 不 同 的 方差 估计 量 ,所 以 必须 采用 折衷 的 办 法 。 
二 ) 费用 和 时 间 
虽然 精度 问题 对 选择 方差 估计 量 有 决定 性 的 影响 ,但 是 费用 和 时 间 因 素 也 起 
重要 作用 ,对 复杂 抽样 调查 更 是 如 此 。 这 类 调查 可 能 包括 数 十 张 统计 表 , 每 张 表 可 
能 有 上 百 个 或 更 多 个 数据 ,也 包括 回归 系数 .相关 系数 等 估计 量 。 对 每 个 调查 统计 
旺 都 计算 高 精度 的 方差 估计 值 ,其 费用 可 能 相当 惊人 ,甚至 可 能 超过 调查 总 预算 的 
费用 。 这 时 ,可 能 更 需要 节约 费用 的 方差 估计 方法 ,即使 这 些 方法 在 精度 方面 可 能 
要 损失 一 些 时 间 也 是 一 个 在 实际 应 用 中 需要 考虑 的 重要 因素 ,因为 复杂 抽样 调查 
一 般 都 有 相当 严格 的 完成 时 间 和 发 布 期 限 。 
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(三 ) 操作 的 简便 性 

首先 ,大 多 数 复杂 抽样 调查 涉及 很 多 变量 和 统计 量 及 其 相应 的 方差 佑 计 值 。 理 
论 上 对 每 个 调查 统计 量 应 该 使 用 不 同 的 方差 估计 量 , 至 少 对 不 同类 型 的 统计 量 使 
用 不 同 的 方差 估计 量 , 然 而 在 许多 实际 调查 中 ,由 于 调查 经 费 、 专 业 人 员 .时 间 和 计 
算 机 等 资源 的 稀缺 ,往往 采用 折衷 的 办 法 ,选择 一 个 可 能 对 任何 一 个 统计 时 都 不 是 
最 好 的 ,但 对 所 有 或 者 至 少 对 最 重要 的 那些 调查 统计 量 来 说 是 精度 方面 损失 最 少 
的 方差 佑 计量, 其 次 ,在 没有 合适 的 软件 进行 数据 处 理 和 方差 估计 时 ,需要 编制 
专用 的 计算 机 程序 。 如 果 编 程 人 员 不 能 正确 地 编制 恰当 的 计算 机 程序 ,特别 强调 
精确 的 方差 估计 方案 就 没有 意义 。 最 后 , 通常 来 说 , 使 用 较 简单 的 估计 方法 将 有 
利于 调查 主办 者 和 调查 数据 的 其 他 使 用 者 的 理解 , 从 而 可 以 更 好 地 达到 调查 
目的 。 

















三 典型 方法 概述 

复杂 样本 的 方差 估计 方法 可 以 分 为 两 类 , 即 重 抽样 方法 和 线性 化 方法 这些 方 
差 估计 方法 所 得 到 的 估计 量 不 一 定 是 无 偏 的 ,但 是 有 很 大 的 灵活 性 ,能 够 充分 适应 
复杂 抽样 调查 的 大 多 数 特 性 ,本 章 主要 介绍 以 下 几 种 方差 估计 方法 。 

随机 组 方法 是 发 展 最 早 的 一 种 方差 估计 方法 , 它 是 一 种 重 抽样 方法 ,其 实质 是 
按 一 定 的 抽样 方案 从 总 体 中 抽取 若干 组 样本 ,对 于 每 一 组 样本 都 建立 有 关 参 数 的 
佑 计量。 这些 估计 量 之 间 的 离散 程度 , 即 样 本 方差 可 用 于 计算 全 样本 估计 量 的 方 
差 。 

平衡 半 样本 方法 也 是 一 种 重 抽样 方法 , 它 将 各 层 中 的 随机 组 数 减 为 两 个 ,以 提 
高 方差 估计 的 效率 ,但 它 与 随机 组 方法 有 所 区 别 。 

刀 切 法 建立 在 再 抽样 理论 基础 上 ,利用 再 抽样 技巧 将 原来 的 总 体 进行 复制 ,在 
复制 的 总 体 中 可 以 使 用 原来 的 抽样 办 法 再 复制 抽样 样本 , 并 构造 同样 结构 的 有 关 
参数 的 统计 量 ,由 于 复制 的 总 体 及 统计 量 是 原 有 总 体 及 统计 量 的 一 个 缩影 ,而 在 复 
制 的 模型 中 ,包括 统计 量 的 均值 .方差 等 特性 在 内 的 指标 几乎 均 可 以 通过 计算 得 
到 。 

泰勒 级 数 法 属于 线性 化 的 方差 估计 方法 ,其 实质 是 将 非 线性 估计 线性 化 ,在 抽 
样 调查 中 人 们 会 遇 到 一 些 非 线性 估计 量 ,如 比率 估计 、 回 归 系 数 估计 等 ,利用 泰勒 
级 数 展开 可 以 用 线性 估计 去 逼近 非 线性 估计 量 , 从 面 得 到 非 线性 方差 估计 量 的 近 
似 估计 。 不 过 ,泰勒 级 数 法 在 数学 运算 上 相当 复杂 。 
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$ 10.2 ”随机 组 方法 


方差 估计 的 随机 组 方法 (random group method) ,是 使 用 相同 的 抽样 方案 从 总 
体 中 抽取 两 个 或 两 个 以 上 的 样本 ,对 每 一 个 样本 分 别 构造 所 感 兴趣 的 总 体 参 数 的 
钻 计量 ,对 所 有 样本 的 组 合 再 构造 一 个 估计 量 ,然后 利用 这 些 估计 量 的 样本 方差 或 
这 些 佑 计量 与 基于 全 样本 的 钻 计量 之 间 的 离散 程度 计算 基于 全 样本 估计 量 的 方 
差 。 

随机 组 方法 的 实质 是 将 抽取 的 样本 分 成 若干 组 ,每 组 子 样本 作为 原始 样本 的 
复制 ,再 利用 各 子 样本 估计 量 之 间 的 离散 程度 构造 方差 估计 量 。 由 于 每 个 随机 组 都 
是 原样 本 或 全 样本 的 一 个 子 样本 , 且 其 在 整个 样本 中 是 交叉 散布 的 ,所 以 这 种 方法 
也 称 为 交叉 子 样本 (interpenetrating subsamples) 方法 。 该 方法 是 由 印度 统计 学 家 马 
哈 拉 诺 比 斯 (Mahalanobis) 提出 来 的 。 

随机 组 方法 有 两 种 基本 形式 :一 种 是 随机 组 之 间 相 互 独立 ; 另 一 种 是 随机 组 之 
间 具 有 某 种 相关 性 .下 面 分 别 予 以 介绍 。 


一 、 独 立 随机 组 

(一 ) 随机 组 的 形成 

如 果 每 次 抽取 的 样本 都 被 放 回 , 则 所 得 的 随机 组 为 独立 的 ,具体 的 抽样 过 程 如 
下 。 

1. 按 某 种 抽样 方式 从 总 体 中 抽取 样本 Si( 抽 样 设计 本 身 没有 限制 ,可 以 包括 
多 重 抽样 框 ,多 阶段 ,图 定 的 或 随机 的 样本 量 , 可 以 是 分 层 抽样 、 多 阶 抽样 .多 重 抽 


样 , 放 回 或 不 放 回 抽样 )。 

2, 在 抽取 了 第 一 个 样本 Si 后 ,将 其 放 回 总 体 ,然后 按 与 之 相同 的 抽样 方式 抽 
取样 本 Ss。 

3. 重复 上 述 过 程 ,直至 获得 个 样本 SI,S,,…, Si(& > 2)。 我 们 称 这 上 个 样 
本 为 随机 组 。 

{二 ) 随机 组 估计 量 


对 每 个 随机 组 ,构造 参数 9 的 一 个 佑 计量, 分别 记 为 &(e = 1,2,，…, 天 )。 这 样 ， 
方差 随机 组 外 计量 具有 下 述 性 质 。 


性 质 1 设 抽 , 名,…, 后 是 相互 独立 的 随机 变量 , 并 且 具 有 相同 的 期 望 
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立 ? (10.1) 


则 E(B3) = ,8 的 方差 V(3) 的 一 个 无 偏 估计 是 
oD) = ze (10.2) 
在 实际 抽样 调查 中 ,一 般 使 用 无 偏 或 近似 无 偏 的 估计 ,尤其 当 旬 和 6 线性 时 ， 
期 望 值 / 与 研究 参数 0 常常 是 一 致 或 相近 似 的 , 即 
EC) = 一 AL (10.3) 
性 质 2 。 设 8 人，…, 久 服从 N(6,c2) 的 独立 同 分 布 随机 变量 , 则 


人 





《0 统计 量 = = = 服从 标准 正 态 分 布 N(0,1); 
Ea 


大 


(2) 统计 量 : = 怨 二 人 服从 自由 度 为 有 -1 的 + 分布。 


ao(9) 
这 样 , 如 果 久 的 方差 已 知 ,或 随机 组 数 上 很 大 , 则 6 的 1 - = 的 置信 区 间 为 : 


全 GY vB) ,b+ pg .人 
如 果 色 的 方差 未 知 ,或 随机 组 数 太 较 小 , 则 9 的 1 - a 的 置信 区 间 为 : 


全- wsV odd) ,dr ng od 


在 实际 抽样 调查 中 , 当 & 和 6 非 线性 时 ,5 的 期 望 值 /与 研究 参数 0 之 间 存 在 信 
倚 w-8 夭 0。 但 在 现代 复杂 抽样 调查 中 都 使 用 大 样本 ,这 种 偏 全 通常 并 不 重要 。 此 


外 ,现实 名 的 正 态 性 假定 往往 不 能 满足 ,但 大 样本 下 义 具有 渐进 正 态 分 布 。 


{ 三 ) 估计 量 8 的 方差 估计 
一 般 而 言 , 估 计量 8 , 旬 ,，…, 包 常常 是 用 相同 的 方式 构造 出 来 的 。 白 然 地 ,我 们 


可 以 基于 & 个 随机 组 的 联合 样本 ,用 构造 9 园 样 的 方式 构造 9 的 估计 量 g 而 不 是 简 
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单 地 将 名 进行 算术 平均 .显然 ,对 于 线性 估计 量 ,9 与 ; 是 一 致 的 ;但 对 于 非 线性 估 
计量 ,8 与 8 并 不 相同 。 
对 于 估计 量 8 的 方差 ,以 下 两 个 估计 量 都 可 使 用 : 
v1(B) = x (10.4) 
m0) = RD (10.5) 
显然 ,ol(8) = vu(B), 也 就 是 说 这 个 估计 重 不 仅 可 以 用 于 估计 9 的 方差 ,也 可 
以 用 于 估计 的 方差 。 一 般 来 说 V5) 与 VC8) 相差 不 大 ,因此 oj(8) 是 V(3) 的 
一 个 合理 的 估计。 
对 于 线性 估计 量 ,了 = 9, 因 此 v1(8) = v2(3)。 
对 于 非 线性 估计 量 ,与 5 并 不 相同 。 
DE Dy 
故 有 vi(8) < v2(8) 
上 面 的 关系 并 不 意味 着 wi( 人) 就 比 v2(9) 好 。 因 为 我 们 的 目的 是 要 估计 的 
方差 而 不 是 要 给 出 一 个 最 小 的 估计 ,事实 上 ,出 于 稳妥 的 考虑 ,人 们 和 常常 更 愿意 取 


保守 的 vw.(8) 作为 Y(9) 的 估计 ,由 于 在 许多 复杂 样本 的 调查 中 ,EC - 5)2 的 值 
经 常 不 是 很 大 ,因而 ul 与 wz 之 间 的 差别 其 实 并 不 很 大 。 至 于 ui 与 zw 到 底 那 个 更 
好 ,目前 尚 无 定论 ,这 是 一 个 有 待 解 决 的 问题 ,现实 中 ui 与 vo 几乎 是 一 样 的 ,如 果 
两 者 出 现 显 著 差 异 , 很 可 能 是 计算 错误 或 小 样本 引起 的 偏 倚 。 

【 例 10.1] 拒 答 率 调查 

为 研究 被 调查 者 拒 答 情况 ,实施 一 项 调查 。 抽 样 方式 为 两 阶段 抽样 ,第 一 阶段 
采用 分 层 随 机 抽样 从 各 城区 中 随机 抽取 居委会 ,假设 各 层 权 重 相同 ,第 二 阶段 从 被 
抽 中 的 居委会 随机 抽取 住户 ,抽出 样本 Si 后 将 其 放 回 总 体 ,然后 再 按 相同 的 抽样 
方式 抽取 出 样本 S;, 两 样本 的 拒 答 情 况 统计 结果 见 表 10.1。 试 利用 随机 组 方法 估 


计 拒 答 率 尺 的 方差 。 
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表 10.1 样本 的 拒 答 情况 
样本 Sl 样本 Ss 
城区 拒 答 户 数 (y,) “| 合格 调查 户 数 (xi) | ” 拒 答 户 数 (ya) ”| 合格 调查 户 数 (zz) 
1 4 150 37 149 
2 4 149 30 148 
3 38 145 38 150 
总 计 119 444 105 447 




















气 
总 Dz 
全 
然后 再 基于 样本 S 和 样本 5S; 的 联合 数据 ,估计 拒 答 率 : 
恨 = 一 = 全 =0.251 402 92 
XI + X2 


R= 去 (名 + Rs) = 0.251 458 67 
因为 比 是 一 个 非 线性 统计 量 , 所 以 我 们 用 两 种 方法 估计 拒 答 率 六 的 方差， 
~ 本 1 、 和 二 本 Ef 2 ~ 六 
wR) = RED R RY = za- .Ry 
= 0.000 274 21 
Ll Hp _ ay, 1 us, _s 
wR) = DR RY = rR RY 
= 0.000 274 22 








很 明显 ,对 这 些 数据 来 说 , 良 和 及 以 及 wy( 良 ) 和 va( 良 ) 之 间 的 差别 很 小 。 
【 例 10.2】 AAA 汽车 旅馆 调查 中 
我 们 现在 用 美国 汽车 协会 (American Automobile Association) 对 其 会 员 汽 车 旅 














中 此 例 取 自 戴 明 (Deming}(1960), 转 引 自 KK. M. Wolter:《 方 差 估计 引 论 》,32 页 ,北京 ,中 国 统计 出 版 
社 ,1998。 
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馆 经 营 者 的 实际 调查 来 说 明 独 立 随 机 组 的 使 用 。 该 调查 的 目的 是 确定 这 些 经 营 者 
是 否 喜 欢 建立 一 个 预订 系统 ,使 汽车 驾驶 者 可 以 提前 预订 房间 。 

调查 杠 是 AAA 中 心 办 公 室 里 的 卡片 文件 ,包括 172 个 文件 抽 民 ,每 个 抽 民 有 
64 张 卡片, 每 张 卡片 代表 一 个 基本 单元 (可 能 是 合同 汽车 旅馆 饭店、 空白 卡片 
等 ) ,抽样 单元 是 卡片 。 

调查 的 抽样 设计 如 下 : 

1. 事先 已 知 总 体 中 约 有 5 000 个 合同 汽车 旅馆 ,并 准备 抽取 约 700 个 单元 做 总 
样本 ,这 样 ,总 抽样 比 约 为 3005 , 即 约 7 个 里 面 抽 1 个 所 以 ,每 一 个 抽 履 都 各 增加 
6 张 空白 卡片 这样 每 个 抽 因 部 有 70 张 卡 片 。 

2. 从 每 一 个 抽 尼 中 随机 抽取 一 张 卡片 ,组 成 一 个 172 张 卡片 的 样本 .抽样 在 不 
同 的 抽 民 中 是 相互 独立 的 。 

3. 按照 第 2 步 的 方法 有 放 回 地 青 抽 取 9 个 样本 ,这 样 , 由 这 10 个 样本 (或 随机 
组 ) 得 出 的 估计 量 可 以 认为 是 相互 独立 的 。 

4. 结果 有 854 个 汽车 旅馆 被 抽 人 总 样本 ,向 每 一 个 单元 寄 一 张 调查 表 。 其 他 
866 个 单元 不 是 合同 汽车 旅馆 ,不 属于 被 调查 总 体 。 虽 然 使 用 有 放 回 的 抽样 方法 村 
取 随 机 组 ,但 没有 单元 被 重复 抽 中 。 

5.10 天 后 ,对 无 回答 的 单元 第 一 次 寄 调 查 表 ,再 过 一 星期 第 三 次 寄 调 查 表 ,如 
果 24 天 后 仍 无 返回 调查 表 , 就 被 认为 是 无 回答 者 。 

6. 将 无 回答 者 按 随机 组 的 数字 顺序 排 到 ,并 从 每 3 个 相 邻 组 中 随机 抽 选 一 个 ， 
对 负 中 的 无 回答 单元 进行 面 访 .在 这 种 抽样 中 ,前 一 随机 组 中 最 后 面 的 无 回答 者 放 
到 下 一 随机 组 的 前 面 ,这 样 做 有 点 破坏 随机 组 估计 量 独立 性 的 条 件 。 然 而 ,在 本 合 
中 ,这 -点 被 乱 略 。 

表 10.2 给 出 了 24 天 后 关于 问题 "人 们 经 常 向 你 预订 吗 " 的 结果 , 表 10.3 给 出 
了 无 回答 子 样本 对 此 问题 的 回答 。 


囊 19.2 24 天 后 对 问题 "人 们 经 常 向 你 预定 吗 "的 各 类 同 答 结果 


随机 组 | 经 常 | 很 少 | 没 有 不 明确 回答 未 回答 | 合计 
1 16 40 17 2 19 94 
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随机 组 | 经 常 [ 很 少 [ 没 ”有 | 不 明确 回答 ”| 未 回答 | 合 计 
了 19 30 17 3 17 86 
8 13 37 11 3 18 82 
9 19 39 19 2 14 好 
10 17 39 15 2 15 » 88 
合计 168 345 153 25 163 854 
于 10.3 对 无 回答 子 样本 访问 的 结果 
随机 组 | 经 常 | 很 少 | 没 有 | 和 蜀 时 关闭 (放假. 生病 等 | 合 计 
1 1 2 2 1 6 
2 1 2 1 5 
3 2 2 0 1 5 
4 2 1 2 0 5 
5 1 3 1 2 7 
6 2 2 0 1 5 
7 1 3 1 1 6 
8 1 2 1 2 6 
9 2 2 1 0 5 
10 1 2 0 2 5 
合 计 14 21 9 11 55 




















给 定 的 样本 单元 属于 任何 一 个 随机 组 的 概率 是 赴 , 属 于 无 回答 者 子 样本 的 条 
件 概率 是 十 。 这 样 ,来 自 第 一 个 随机 组 的 合同 汽车 旅馆 的 总 数 估 计 是 : 
入 = 3x 
2] 
=70x9%4 


= 6 580 


= 一 | i 个 : 元 是 合同 
式 中 ,x4,|” 和 i 个 抽 中 单元 是 合同 旅馆 


所 有 随机 组 的 总 数 估 计 是 : 


因为 估计 量 是 线性 的 ,所 以 名 和 及 是 相同 的 相应 的 方差 估计 是 : 
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_ 0 
vw( 名 ) = 上 > (名 双 )? = 12 652.9 
气 








10x9 
表 10.4 给 出 了 关于 问题 “人 们 经 常 向 你 预订 吗 ” 的 每 一 分 类 的 总 数 估计 。 
于 10.4 总 数 的 估计 
随机 组 经 常 很 少 没 有 不 明确 回答 暂时 关闭 
1 1330 3 220 1610 140 210 
2 1610 2 520 1400 210 210 
3 1 680 2 870 1 120 70 210 
4 1610 2 380 1 400 140 0 
5 119%0 2870 | .1260 210 420 
6 1470 2 660 840 280 210 
7 1 540 2 730 1 400 210 210 
8 1 120 3010 980 210 420 
9 1750 3150 1 540 140 0 
10 1 400 3150 1050 140 420 
二 样本 1470 2 856 1 260 175 231 




















例如 ,第 一 个 随机 组 中 回答 “经常 ”的 汽车 旅馆 总 数 的 估计 值 是 
Y=70x (SY +32) Yi) 
En iEmw 

=70x(16+3x1) 

= 1330 
式 中 , 2, 和 之 分 别 为 对 第 一 随机 组 中 回答 者 和 无 回答 者 子 样本 的 求 和 。 

= 1, 第 一 随机 组 中 的 第 i 个 抽 中 单元 是 合同 旅馆 并 回答 “经 常 ” 

| = 0, 其 他 
各 种 非 线性 统计 量 也 可 用 这 些 数据 来 处 理 。 关 于 第 一 个 随机 组 中 


很 少 + 没有 、 
至 带 + 很 少 + 没有 的 比 的 估计 值 是 : 
3220+1610 


R= 1300+3220+1610 
所 有 随机 组 的 这 个 比 的 估计 值 是 ; 





Y 


= 0.784 


10 方 
全 R, 本 
R= 2 -0737 
相应 的 方差 估计 值 是 : 
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10x9 
因为 比 是 一 个 非 线性 统计 量 , 所 以 我 们 可 以 使 用 另 一 估计 值 


2856+1260 
R=140+2856+1260 一 0737 


Var| 良 | 的 两 个 随机 组 估计 值 是 : 


wi(R) = w(KR) = 0.000 113 9 


0 > 
v(R) = 一 L > (RR) = 0.000 1139 
气 


10 


wlR) = 0ks > (Re ~ RY = 0.000 1139 





二 、 非 独立 随机 组 
在 实际 应 用 中 ,往往 很 难 实现 一 系列 的 有 放 回 独立 抽样 ,而 经 常 是 采用 不 放 回 
抽样 方法 一 次 性 抽取 一 个 整体 调查 样本 ,然后 将 该 样本 随机 地 分 为 大 个 随机 组 。 这 


种 随机 组 估计 量 妈 之 间 就 不 再 独立 了 。 

(一 ) 随机 组 的 形成 

为 了 保证 方差 的 随机 组 估计 量具 有 较 好 的 统计 性 质 , 随机 组 的 划分 必须 遵循 
以 下 基本 原则 , 即 每 个 随机 组 本 质 上 具有 与 原始 样本 相同 的 抽样 设计 。 例 如 ,对 于 
一 个 系统 样本 ,如 果 从 该 样本 中 再 以 同样 的 系统 抽样 法 抽取 出 一 个 子 系统 样本 , 则 
该 子 样本 可 看 成 是 用 与 原始 样本 相同 的 抽样 方法 抽取 出 来 的 ,这 样 的 子 样本 就 可 
作为 一 个 随机 组 。 

非 独立 随机 组 的 具体 形成 一 般 要 遵循 以 下 原则 。 

1. 如 果 原 始 样本 是 用 不 放 回 的 简单 随机 抽样 或 不 放 回 的 PS 抽样 方式 抽取 
的 , 则 随机 组 可 通过 随机 地 划分 原始 样本 得 到 。 具 体 步骤 如 下 :; 

(1) 从 原始 样本 中 简单 随机 地 抽取 m = 个 单元 ,形成 第 一 个 随机 组 ; 

(2) 再 从 剩 下 的 = 一 m 个 单元 中 简单 随机 地 抽取 m 个 单元 作为 第 二 个 随机 
组 ; 

(3) 依 此 类 推 , 即 可 得 个 随机 组 ; 

(4) 如 果 至 不 是 整数 ,不 妨 设 # = mg + 9(0 < 9 <&), 那 么 剩 下 的 g 个 单元 


要 人 么 弈 之 不 用 ,要 么 将 它们 逐一 加 到 前 而 4 个 随机 组 中 。 
2. 如 果 原 始 样本 是 用 等 概率 或 不 等 概率 系统 抽样 方式 抽取 的 , 则 可 通过 对 原 
始 样本 采用 系统 抽样 形成 随机 组 。 具 体 步 又 如 下 ; 
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(1) 从 整数 1 到 中 随机 抽取 一 个 整数 , 记 为 a* ; 

(2) 原始 样本 中 第 一 个 单元 进入 第 a” 随 机 组 ; 

《3) 第 二 个 单元 进入 第 <” + 1 随机 组 ; 

(4) 依 此 类 推 ,直到 取 完 个 随机 组 。 

3. 对 于 多 阶 抽样 ,将 来 自 同一 初级 抽样 单元 (PSU) 的 所 有 基本 样本 单元 的 集 
合作 为 一 个 整体 , 称 为 末 级 群 ,随机 组 是 通过 将 所 有 末 级 群 分 成 组 而 得 到 的 , 具 
体 的 划分 方法 根据 第 一 阶 抽样 方法 而 定 。 如 果 第 一 阶 抽样 是 不 放 回 的 简单 随机 抽 
样 或 rPS 抽样 , 则 使 用 原则 1; 如 果 第 一 阶 抽样 是 系统 抽样 , 则 使 用 原则 2。 

4. 对 于 分 层 抽样 ,如果 希 望 估计 层 内 方差 ,那么 在 该 层 内 根据 所 采用 的 抽样 
方法 而 使 用 原则 1 .原则 2 或 原则 3; 如 果 希 望 估计 总 体 方差 ,那么 每 个 随机 给 本 身 
必须 是 一 个 分 层 样本 ,此 时 应 将 从 每 一 层 中 抽 得 的 样本 划分 成 组 ,然后 在 各 层 中 
任意 取 一 个 随机 组 ,从 而 形成 原始 样本 的 一 个 随机 组 。 

5. 如 果 采 用 的 是 二 重 抽样 , 则 应 将 第 一 重 样本 按 原则 1 或 原则 2 划分 成 个 
随机 组 ;而 第 二 重 样本 则 被 相应 地 分 成 随机 给 , 即 第 二 重 样本 单元 所 在 的 随机 组 完 
全 由 第 一 次 划分 时 决定 。 这 种 划分 的 前 提 当 然 是 第 一 、 二 重 样本 均 已 被 抽取 出 来 。 
在 实际 应 用 中 ,有 时 随机 组 的 划分 是 在 第 一 重 样本 抽出 后 第 二 重 样本 抽出 前 进行 
的 ,这 时 是 将 第 一 重 样本 按 原则 1 或 原则 2 分 成 个 随机 组 ,再 从 每 个 随机 组 中 独 


立地 抽取 mw = 的 个 单元 一 起 组 成 第 二 重 样本 。 

(二 ) 非 独 立 随机 组 的 估计 

对 于 非 独 立 随机 组 ,估计 方法 与 独立 随机 组 的 情形 类 似 。 仍 以 表示 根据 原始 
样本 构造 的 估计 量 , 以 久 表示 由 第 a 个 随机 组 构造 的 估计 量 , 则 


























5- 1 (10.6) 
5 的 方差 V(B) 的 随机 组 估计 为 : 

vB) = ep 一 人 (10.7) 
与 独立 随机 组 相同 ,的 方差 VC) 也 可 以 通过 两 式 估计 ; 

nD) = = 上 六 人-p (10.8) 


kk 一 DA 


( = 
va(0) = 有 二 jt 和 一 0)2 (10.9) 
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出 于 同样 的 理由 ,为 保险 起 见 ,我 们 取 v2(3) 作为 V(8) 的 估计 。 
{三 ) 非 独 立 随 机 组 估计 的 性 质 


性 质 3 设 世 (入 ) = wp 不 一 定 等 于 9, 有 
_ ， 
E(0) = EoDpe = (10.10) 
且 V(3) 的 随机 组 估计 量 的 期 望 
< 


= = 1 es 四 2 
E[v(8)] = V(8) +EE-DO 2 Dt) 
(10.11) 


性 质 3 显示 ,由 于 非 独立 性 ,o(8) 不 再 是 V(3) 的 无 偏 估计 。 但 若 总 体 较 大 , 抽 
样 比 又 较 小 , 则 02 本 Cov( 名 ,名 ) 常 稼 相对 较 小 且 为 负 值 ;而 当 po ~ 
所 名 


下 


时 ,FED Sp 一 五 )2 也 较 小 。 因 此 ,在 许多 大 规模 的 抽样 调查 中 ,u(8) 的 信 


倚 通 常 不 会 很 大 。 


三 、 随 机 组 数 的 选择 

在 设计 阶段 ,什么 样 的 调查 设计 和 多 大 的 样本 量 才能 保证 调查 估计 量 9 的 人 
计 精 度 ?要 解决 这 个 问题 必须 先 了 解 6 的 方差 。 此 外 ,还 应 注意 9 的 方差 估计 的 稳 
定性 。 在 随机 组 方差 估计 中 ,随机 组 数 的 选择 会 影响 方差 估计 的 精度 。 

确定 随机 组 估计 量 稳定 性 的 一 般 准 则 是 变异 系数 准 出 (CY 准则 ); 
~ 1 
万 2 
cv[w0)] = lu 

V(8) 


性 质 4 候 没 名, 名 ，…, 和 为 独立 同 分 布朗 量 , 而 wu(3) = za | 寥 
(- 加 , 则 (6) 的 变异 系数 为 ， 


_ >、_k-31 
cvluti)] = 2 一 1| (10.12) 
天 





人 下 [(6 — p)*] > 
式 中 ,pp = 一 一 一 一 ,= E(0)。 
1E[C6 -woO] 村 
由 性 质 4 可 见 ,独立 随机 组 方差 估计 的 CV 与 & 的 分 布 和 随机 组 组 数 这 两 个 
因素 密切 相关 。 峰 度 Bs(91) 越 大 ,方差 估计 精度 越 差 组 数 上 越 小 ,方差 估计 精度 
越 差 。 而 和 且 当 * 较 大 时 ,CV? 近似 反比 于 随机 组 组 数 玉 : 


cv vt)] 一 和 (10.13) 


从 方差 估计 的 精度 角度 出 发 ,显然 随机 组 组 数 越 大 越 好 ,但 随机 组 组 数 上 的 选 
择 还 要 受 成 本 的 约束 ,最 优 的 随机 组 组 数 * 应 该 从 精度 和 成 本 两 方面 进行 权衡 。 如 
果 调 查 的 目的 只 是 为 了 得 到 某 总 体 指标 的 大 致 结果 ,成 本 因素 比 精度 因素 重要 , 则 
随机 组 组 数 上 可 以 小 一 些 ; 如 果 要 依靠 调查 结果 制定 重要 决策 ,精度 要 求 较 高 , 建 
议 采 用 较 大 的 随机 组 组 数 天。 





8$ 10.3 “平衡 半 样 本 方法 


实际 分 层 抽样 调查 中 ,出 于 效率 的 考虑 ,每 层 经 常 只 抽 2 个 单元 。 在 这 种 情况 
下 ,只 有 2 个 独立 随机 组 可 用 于 方差 估计 ,使 得 方差 的 估计 值 起 伏 较 大 。 本 节 介绍 
的 平衡 半 样本 方法 (balanced half - sample method) 可 以 解决 这 个 问题 。20 世纪 50 
年 代 未 美国 普查 局 的 W.N. 赫 维 芯 和 M. 格 尼 等 人 提出 了 方差 估计 的 半 样 本 法 的 
基本 思想 ,后 来 卖 卡 锡 进一步 提出 平衡 半 样 本 法 。 





一 , 半 样本 
假设 对 总 体 N = > Ni ,采用 分 层 随 机 抽样 ,每 层 有 放 回 地 简单 随机 抽取 2 个 


单元 , 设 ml 和 wa 是 第 疡 层 的 样本 观测 值 (六 = 1,2,…, 工 ), 则 总 体 均值 了 的 无 偏 
估计 为 : 


L 
= We (10.14) 
be 
N, + 
式 中 ,Wi = 于 为 情 权 ; 怠 = 区 2。 
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3 的 方差 V(yu ) 的 标准 估计 量 为 : 
vw{yr) = 41> ws = 4» wia? 《10.15) 


式 中 ,dh = (3 一 me 
使 用 随机 组 方法 , 因 每 层 只 抽 2 个 单元 ,所 以 只 有 2 个 独立 的 随机 组 (yi ， 
2 和 (yoyo ,Ya)。 此 时 V( 元 ) 的 随机 组 合计 为 : 


: 
vel3n) = FD (10.16) 





式 中 ,5.1 = 2 We = Wisma 3 = (3. + 34,2)o 

这 个 估计 量 计算 简单 ,但 由 于 仅 有 一 个 自由 度 , 其 稳定 性 比 标准 估计 量 "( 元 ) 
差 。 为 了 既 保 留 随机 组 佑 计 wkc(ye ) 的 简单 性 ,又 能 保持 标准 估计 量 w( 灭 ) 的 稳定 
性 ,我 们 引入 半 样 本 方法 , 即 从 每 层 抽 取 一 个 单元 形成 半 样 本 ,总共 可 能 出 现 2 个 
半 样 本 。 由 于 不 同 的 半 样 本 中 包含 某 些 共同 的 单元 ,所 以 半 样 本 之 间 是 彼此 相关 
的 。 在 这 一 点 上 , 半 样 本 方法 与 随机 组 方法 存在 本 质 上 的 不 亲 。 





二 、 半 样本 佑 计量 
假定 一 个 半 样 本 是 从 每 层 中 抽取 一 个 单元 组 成 ,显然 ,对 一 个 给 定 的 样本 有 
27 个 这 样 的 半 样 本 。Y 的 基于 第 a 个 半 样 本 的 估计 量 为 : 
= 辫 Ws (6h109%n1 + 就 2ay2) (10.17) 
式 1 第 六 层 中 第 一 个 单元 被 选 人 第 个 半 样 本 
中 ,Di = 
0, 其 他 
G20 = 1 — hle 
性 质 5 ,所 有 27 个 这 样 的 估计 量 的 平均 值 从 好 是 丈 , 即 
二 一 (10.18) 
证 明 :因为 样本 中 的 每 个 单元 都 会 在 一 半 即 2 个 半 样 本 中 出 现 , 即 


a 
he 一 2 


-1 
因而 直 - mm aol( 宣 )= 3 
我 们 将 利用 丈 ,。 之 间 的 差异 来 构造 方差 估计 重 。 定 义 

















= 1, 第 层 中 第 一 个 单元 被 选 人 第 a 个 半 样 本 














5 28。 中- 1 第 层 中 第 二 个 单元 被 选 和 人 第 a 个 半 样本 
则 

于 a 一天 = 4 wai, 
由 于 四 1 于 是 

(94.s 一 殉 )2 = 4> Wiad + 4 aim wd 

= v3) + 4 Sm wa (10.19) 

性 质 6 “2 个 统计 量 (5,。 ~ 5》 的 平均 是 V(F) 的 一 个 无 偏 估计 量 。 

E> - 5 = V(3s) (10.20) 
三 ,平衡 半 样 本 估计 


z 
2 个 统计 量 (总 ,。- 吉 的 平均 , 即 去 总 ( 吏 ,。~ 如 六 是 V (加) 的 无 偏 估计 。 
然而 , 当 层 数 L 较 大 时 ,这 个 人 计量 的 计算 是 不 可 行 的 .为 了 简化 计算 ,一 个 很 和 
然 的 想法 是 选择 一 个 小 的 半 样 本 子 集 ,希望 这 个 半 样 本 子 集 尽 量 保留 所 有 的 信息 ， 
这 样 既 可 达到 简化 计算 的 目的 , 叉 能 保证 足够 的 精度 。 
假设 这 个 半 样本 子 集 包含 个 半 样本 ,用 式 (10.19) 有 


(9) = 二 加 (3。 


也 了 证 
= v5) + 支 忆 之 [Sapp Wi Wadydi 
因此 ， 如 果 所 选择 的 个 半 样 本 对 所 有 < = 1,2,…, 上 都 满足 以 下 条 件 : 
Sebel = =0 {10.21) 


那么 ， ( 现 ) 就 正好 等 于 vw(534)。 因 此 ,我 们 说 这 个 半 样 本 完全 保留 了 27 个 
半 样 本 所 包含 的 关于 V (3) 的 信息 。 满 足 条 件 式 (10.21) 的 组 半 样本 称 为 平衡 
半 样 本 。 
如 何 确定 平衡 半 样 本 呢 ?Plackett 和 Burman(1946) 给 出 了 x 上 阶 正 交 和 矩阵 
(为 4 的 倍数 ,为 Hadamard 矩阵 ) 的 方法 例如 , 表 10.5 和 表 10.6 分别 给 出 了 4 
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X4 阶 和 8x8 阶 这 样 的 扼 阵 ,其 中 列表 示 层 , 行 表示 半 样 本 ;在 第 a 行 第 列 的 位 
置 上 , + 1 表示 层 h 的 第 一 个 单元 被 选 人 第 a 个 半 样 本 , - 1 表示 层 h 的 第 二 个 单 
元 被 选 人 第 a 个 半 样 本 。 按 这 种 方式 定义 的 半 样本 即 为 平衡 半 样 本 。 
在 具体 使 用 时 ,可 根据 这 种 表 的 行 确定 半 样本 。 例 如 若 总 体 共 分 5 层 , 则 使 用 
表 10.6, 第 二 个 半 样本 就 是 由 第 2 行 确定 的 :在 第 1,2,5 的 位 置 上 ,是 + 1, 说 明 应 
在 第 1,2,5 层 中 取 第 一 个 单元 ;在 第 3,4 的 位 置 上 ,是 - 1, 表 示 在 第 3,4 层 中 应 取 
第 二 个 单元 。 至 于 哪个 单元 作为 第 一 个 单元 ,哪个 单元 作为 第 二 个 单元 ,可 任意 规 
表 10.5 和 10.6 还 具有 如 下 性 质 , 即 除了 最 后 一 列 外 ,每 列 之 和 均 为 零 , 也 就 
是 说 , 当 上 < 时 (k = 4 或 8), 有 
Sab =0 (10.22) 
在 工 < 大 时 ,用 Plackett 和 Burman 方法 选取 的 上 组 半 样 本 都 满足 上 式 。 因 而 
在 上 < 的 条 件 下 ,有 
Dm) = > Ww, [过 sk =0 














从 而 和 D3 (10.23) 
a -1 

这 与 将 所 有 的 27 个 和 ,e。 进行 平均 所 得 的 结果 完全 一 样 。 我 们 称 同时 满足 式 
(10.21) 和 式 (10.22) 两 个 条 件 的 半 样 本 为 完全 正 交 平 衡 (full orthogonai balance) 
半 样 本 。 

如 果 工 = 上 ,由 表 10.5 和 表 10.6 可 见 ,最 后 一 层 均 为 - 1, 不 满足 式 (10.22)， 
此 时 所 抽 选 的 半 样本 是 平衡 的 但 非 完 全 正 交 平衡 .要 想 抽 取 完 全 正 交 平衡 半 样 本 ， 
上 的 选择 应 该 是 大 于 工 的 4 的 最 小 整数 倍 。 例 如 ,如 果 上 = 8, 则 应 取 = 12。 























囊 10.5 2 层 ~ 4 层 平衡 半 样 本 的 确定 
半 样本 I i 一 人 一 一 ; 
局 +1 +1 +1 -1 
682 -1 +1 -1 -1 
SP -1 -1 | -1 
By +1 | -1 -1 -1 

















229 





家 10.6 5 层 ~ 8 层 平衡 半 样 本 的 确定 



























































层 

学 样 本 1 2 3 4 5 6 7 | 8 
人) +1 -1 -1 +1 -1 +1 +1 -1 
662 11 + 工 +1 一 上 +1 -1 +1 ~- 上 
人 说 二 +1 +1 -1 -1 +1 -1 -1 
和 | -1 i 
好) +1 -1 -1 rl +1 一 上 -1 -1 
2 -1 +1 +1 41 +1 + -1 -1 
人 一 上 -1 -1 -1 +1 +1 +1 -1 
6 -1 -1 -1 -1 -1 -1 | -1 -1 
四 、 部 分 平衡 半 样 本 


在 复杂 分 层 抽 样 方案 中 , 层 数 上 经 常 很 大 ,即使 平衡 半 样本 方法 已 经 减少 了 
半 样 本 数 ,但 由 于 A 之 的 要 求 , 所 需 计算 量 仍然 放大 这 时 可 以 设计 组 部 分 平 
衡 半 样本 ,具体 方法 如 下 。 

假设 有 虐 层 ,采用 组 半 样 本 ,< 上 假设 上 可 以 被 整除 ,上 上 = G, 于 是 
层 可 分 为 G 群 ,为 叙述 方便 ,假设 = 4, 按 照 平 衡 半 样 本 方法 ,必须 之 4. 但 这 里 
我 们 取 率 = 2, 则 4 层 分 为 2 群 ,对 包含 第 1 层 和 第 2 层 的 第 一 群 利用 2 阶 Hadamard 
矩阵 构造 正 交 列 ,对 包含 第 3 层 和 第 4 层 的 第 二 群 用 同样 方法 , 见 表 10.7。 
表 10,7 部 分 平衡 半 样本 的 确定 
屋 
1 2 3 4 











半 样 本 





Bi + +1 +1 +1 
6 +1 -1 +1 -1 




















部 分 平衡 半 样本 计算 简单 ,& 组 部 分 平衡 半 样本 的 方差 估计 量 如 下 : 
Er 上 
之 Ge 3 - 4 这 WE (3%1 ~ S02) + EW WCom ~ 42) 
(1 ~ 2) {10.24) 
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部 分 平衡 半 样本 的 方差 佑 计量 虽然 不 如 完全 平衡 半 样本 精确 ,但 也 是 无 仿 的 。 


五 .用 于 多 阶段 抽样 

以 上 介绍 了 适用 雇 内 放 园 简单 随机 抽样 时 的 平衡 半 样 本 方法 。 这 里 将 考虑 使 

用 不 等 概 抽取 的 多 阶段 抽样 的 情形 ,假设 在 工 层 中 的 每 一 层 初级 抽样 单元 (PSU) 
都 是 按 放 回 的 PPS 抽样 抽取 的 。 考 虑 总 体 总 和 Y 的 如 下 的 无 偏 估计 量 : 

了 - 支 六 -六 ( 冯 (10.25) 


T2211 222 





式 中 ,和 ;为 第 层 第 i 个 初级 单元 总 和 的 一 个 无 偏 估计 ;4; 为 第 层 第 i 个 初级 单 
元 每 次 抽取 的 概率 。 则 了 的 通常 的 方差 估计 量 为 : 


v(Y¥) = 人 De) (10.26) 


hl Th2 
- 与 放 问 的 简单 随机 抽样 情形 一 样 , 有 2 个 可 能 的 半 样 本 ,确定 个 平衡 半 样 
本 。 对 第 a 个 半 样 本 , Y 的 估计 量 为 : 








多- +) (10.27) 
= 1, 层 所 中 第 一 个 单元 被 选 人 第 a 个 半 样 本 
其 中 ,Gm | =- 0, 其 他 
Biao = 1 — hle 
的 方差 估计 时 为 : 
uD) = (10.28) 
六 、 用 于 非 线性 估计 


以 上 讨论 中 使 用 的 都 是 线性 估计 量 , 下 面 介绍 应 用 于 非 线 性 估计 量 的 平衡 半 


样本 法 。 继 续 假设 为 放 回 PPS 分 层 抽样 设计 ,估计 量 8 可 能 是 比率 ,比率 的 差 、 回 归 
系数 ,相关 系数 等 。 


令 基 于 原始 样本 的 比率 估计 量 为 8 = 一 X ,其 中 的 和 名 是 (10.25) 的 形式 ， 


> 
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则 第 a 个 半 样 本 的 估计 为 8。= 了 半 样 本 佑 计量 的 均值 为 ， 
Xe 





5 = > 
对 于 非 线 性 估计 重 ,一 般 8 和 是 不 等 的 ,但 多 数 调查 实践 中 两 者 非常 接近 。 
基于 个 平衡 半 翌 本 的 V(8》 的 佑 计量 有 以 下 几 种 形式 可 供 选择 ; 
1. 与 线性 问题 类 似 的 估计 量 ， 
(8) = 2 一 的 2 (10.29) 
2. 由 于 个 平衡 半 样 本 的 余 集 也 是 平衡 半 样本 ,因而 也 可 以 利用 它们 来 构造 
方差 估计 量 ; 
RD) = LO 8) (10.30) 
式 中 ,名 为 基于 第 a 个 半 样本 的 余 集 构造 的 估计 量 。 
结合 式 (10.29) 和 式 {10.30) 可 得 到 另 一 个 方差 估计 量 : 





(9) = 二 [mw(3) + (0)] 《10.31) 
4. 根据 组 半 样 本 与 其 余 集 的 估计 , V(B) 的 估计 量 : 
人 (9) = 二 守信 (10.32) 


当 8 人 = WO) = HO) = ve 0); 

车 8 为 非 线性 估计 , 它们 一 般 不 会 相等 ,通常 v(9), 成 (3) 和 如 (9) 要 比 
vk (9) 大 一 些 。 

【 例 10.3】 拒 答 率 调查 


为 研究 被 调查 者 拒 答 情况 ,实施 一 项 调查 。 抽 样 方式 为 分 层 随机 抽样 ,从 三 个 
城区 中 各 自 随机 抽取 了 个 居委会 ,假设 各 层 权 重 相同 ,调查 结果 见 表 10.8。 试 利用 


平衡 半 样 本 方法 估计 拒 答 率 良 的 方差 。 
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表 10.8 样本 的 把 答 情况 
| 居委会 Si | 居委会 S 





























城区 拒 答 户 数 (w ) “| 合格 调查 广 数 (x1) | ” 拒 答 户 数 (ys) ”| 合格 调查 户 数 (>2?) 
1 41 : Im | 37 149 

2 40 149 30 148 

3 38 145 1 38 150 
总 计 119 444 105 447 

解 :由 于 各 层 权重 相同 , 拒 答 率 的 估计 为 : 


3 
Qi + wa) 

R = 入 一 一 一 = 如 = 0.251 402 92 
Drm +t ra2) 
全 


用 完全 平衡 六 样 本 法 估计 拒 答 率 民 的 方差 , 抽样 层 数 L = 3, 因为 要 求 
上 之 工 , 因此 取 & = 4, 平 衡 半 样本 的 确定 见 表 10.5。 
取 各 区 第 一 个 居委会 形成 第 一 个 半 样本 ,该 半 样本 及 其 余 集 的 拒 答 率 的 估计 


为 : 
pj ty ty _ 19 
1 rT ra ™ 444 ™ 0°268 018 
+ y2a 十 
高 = 2 十 22 二 332 105 = 0.234 899 


TI2 二 TY22 二 32 447 
取 第 一 区 的 第 二 个 居委会 ,第 一 区 的 第 一 个 居委会 以 及 第 三 区 的 第 二 个 居 委 
会 形成 第 二 个 半 样 本 ,该 半 样 本 及 其 余 集 的 拒 答 率 的 估计 为 ， 


六 32+oy2l+3 15 
R; = rt rt ra ”dB = 0.256 696 





取 第 一 层 和 第 一 层 的 第 二 个 居委会 以 及 第 二 层 第 一 个 居委会 形成 第 三 个 半 样 
本 ,该 半 样 本 及 其 余 集 的 拒 答 率 的 估计 为 : 


六 2l2+222+33 _ 105 
X12+ rT2+ Xa 442 
pe FU+IA+ yy 119 
Rs = ru tr tr 449™ 0.265 033 


取 第 一 层 第 一 个 居委会 第 二 雇 和 第 王 层 的 第 二 个 居委会 形成 第 四 个 半 样本 ， 
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该 半 样 本 及 其 余 集 的 拒 答 率 的 估计 为 : 


Rs = 2 az2+ 33 - 102 - 0.243 303 6 
11 十 22 十 I 48 


Be _ I2+ ytya 115, 
R= Zl2+ TH+ ra 443 0.259 594 


比 是 一 个 非 线性 统计 量 , 下 面 用 四 种 方法 估计 拒 答 率 尽 的 方差: 
wa(R) = 1 ~ R)? = 0.000 141 


-了 《 良 ) + 匠 ( 良 )] = 0.000 139 


(RR) = i -Be)? = 0.000 139 

很 明显 ,对 这 些 数据 来 说 ,wi( 展 ), wk( 尼 ) 和 却 ( 良 ) 要 比 wv ( 民 ) 之 间 的 差别 
小 。 

【 例 10.4] ”铁路 系统 调查 

铁路 系统 为 估计 收益 一 费用 比 ,实施 了 一 次 货运 调查 抽样 框 为 运输 记录 文 
件 ,被 分 为 446 个 层 ,从 每 层 中 抽出 一 个 有 2 辆 车 的 简单 随机 样本 。 根 据 样本 数据 ， 


得 总 费用 ,总 收益 以 及 收益 一 费用 比 的 估计 值 : 


之 = 11 758 070, 文 = 18 266 375, 恨 = 2 = 1.554 
YY 


用 平衡 半 样 本 法 计算 收益 一 费用 比率 估计 量 的 方差 ,该 调查 中 抽样 层 数 工 = 



































446, 如 采用 完全 平衡 设计 ,需要 之 上 ;为 方便 计算 并 节省 费用 ,最 终 采用 部 分 平 

衡 半 样本 法 , 取 上 = 16, 部 分 平衡 半 样 本 的 确定 见 表 10.9。 

囊 10.9 部 分 平衡 半 样本 的 入 定 

半 样 本 是 

_ |1|2|3|4|15|16|7|8|9|a|a 2|9|u4 
人 1 | 1 1 1 1|111 1 1 1|1|11 1 1 
6 人 2 2- -11=1 

_ 好 T1111ili 
6 1 -1 11 1 1 



































































































































层 
灶 样 本 1|2|3|4|15|6|7|8|9j1l12|8|H 
li 
各 11|1-1 -1 -1|-1-01 
人 好 1 11 
S38) 1 1-=-1|1 1 1-1|1 1j-1l11-1=-1t11-11 
8 1 1111 al=-I-lil-ll-1l=-1 
Bo 1|-1|-1-111-1|-0-1-1-1 
8 1 -1 
3 1 1 1 1 
5 2211 1 -1)-1-1|-1l-1|-1l-i-ilili 
Oh 1 111 -1 1 11 
049 1|1|-1 -下 -1 -1 tt- -HI 
She) 114-1|1|1|-1l1|1 1 -1|111|-11|-1 
将 446 个 层 分 为 14 组 ,每 组 含有 32 个 抽样 层 ( 最 后 一 组 含 30 个 抽样 层 ) 每 一 
组 内 各 抽样 层 采 用 相同 的 半 样 本 选取 方案 , 比如 按照 第 16 种 半 样 本 方案 ,第 一 组 
的 32 层 都 选取 第 一 个 单元 ,第 二 组 的 32 层 都 选取 第 二 个 单元 ,第 三 组 的 32 层 都 选 
取 第 一 个 单元 ,依次 类 推 ,形成 第 16 个 半 样 本 。 最 终 得 到 16 个 半 样 本 的 估计 值 如 


表 10.10。 








囊 10.10 半 样 本 估计 人 
子 样本 收益 一 费用 比 (六 ) (BR - Ry? 

I 1.54 0.000 196 

2 1.53 0.000 576 

3 1.55 0.000 016 

4 1.53 0.000 576 

5 1.55 0.000 016 

6 1.56 0.000 036 

7 1.53 0.000 575 
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B= RO-(k-1) A (10.33) 


5 通常 包含 全 样 木 各 随机 观测 值 提供 的 关于 的 全 部 信息 ,相应 的 ks) 包含 除 
去 第 a 组 子 样本 外 其 余 所 有 随机 观测 值 提 供 的 关于 6 的 全 部 信息 。 从 上 式 可 以 看 


出 这 样 的 含义 : 负 可 以 看 做 从 5 所 包含 的 0 的 信息 中 噜 除了 5(。 关于 6 的 信息 ,因而 
虚拟 值 久 可 以 看 做 仅仅 包含 第 a 组 子 样本 所 提供 的 关于 4 的 信息 。 内 此 ,虚拟 值 久 
可 以 近似 看 成 独立 同 分 布 。 

8 的 刀 切 法 估计 定义 为 所 有 的 8。 的 平均 值 





9 ?= (10.34) 
而 6 的 力 切 法 方 莽 信 计 为 : 
(0) = RD -By (10.35) 
实践 中 ,v1(8) TT 的 方差 ,也 用 于 估计 的 方 凑 V( 信 , 即 
vi(B) =w(0) = RE rr 一 的 2 (10.36) 


另外 ,对 8 的 方差 V(8) 的 估计 还 可 以 使 用 : 
v2(0) = za 一 的 {10.37) 
相对 于 v1(8) 而 计 ,v2《8) 是 一 个 保守 的 估计 。 
二 、 有 限 总 体 的 刀 切 法 估计 
应 用 刀 切 法 进行 有 限 总 体 的 方差 估计 之 前 ,应 该 先 将 原始 样本 划分 为 上 个 随 
机 组 ,这 些 随 机 组 可 以 是 独立 随机 组 ,也 可 以 是 非 独立 随机 组 。 


(一 } 放 回 的 简单 随机 抽样 
假设 总 体 单元 了 1, Y2，,…,Yx, 待 估 参 数 为 总 体 均值 了。 从 总 体 中 抽取 一 个 样 


本 基 为 ”的 有 放 同 的 简单 随机 样本 yi ,yw = > 尝 是 了 的 无 信 估 计 。 其 
A WY)2 
方差 Y(5) = >) C5 其 有 无 偏 估计: 
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7 
v(3) = 之 nA) 


应 用 刀 切 法 ,将 样本 分 成 大 小 为 m 的 & 个 随机 组 ,= = mk。 由 于 抽样 是 放 回 


的 ,随机 组 之 间 是 独立 的 。 取 9 = 3。 由 于 其 为 线性 形式 , 故 总 体 均值 了 的 刀 切 法 估 
计量 为 : 





j=-1> -4D 闪闪 (10.38) 
a=1 ol 
区 (= 
式 中 ,5 = 二 LT Sy ;为 舍弃 第 a 组 观测 值 后 的 样本 均值 。 
vi(B) = 12 一 习 ? (10.39) 
很 容易 验证 
d=y 


当 且 仅 当 天 = n,m = 1 时 ,wv(8) = wv(5)。 

(二) 放 回 的 PPS 抽样 

假设 按 放 问 的 PPS 抽样 方式 抽取 一 个 样本 量 为 ”的 样本 ,第 7 个 单元 每 次 人 
样 的 概率 为 , 则 总 体 总 和 Y 的 估计 及 其 方差 为 


Y, 
网 N Si 
V(Y)= > 一 一 一 一 一 
| 





应 用 刀 切 法 , 取 8 = 六 ,假定 ”= mk, 则 第 a 个 虚拟 值 为 
=k-(k-1) 9 


mt) yy, 


式 中 ,8 = 二 之 兰 = Yo 是 含 守 第 “组 观测 信 后 的 估计 量 。 于 是 ,Y 


和 
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的 刀 切 法 估计 为 : 


i- 1 = 了- Yu (10.40) 
8 的 方差 Y(8) 的 刀 切 法 估计 则 为 

v1(B) = en (10.41) 
不 难 验 证 : 

0 = 了 


E[vi(0)] = V6) = V(Z) 

容易 看 出 v1(3) 一 般 并 不 等 于 通常 的 方差 估计 量 ,但 当 六 = 4,m = 工时 ,有 
全 1 nm 和 网 2 

(人 = 3 — D> -?) 

这 与 通常 的 方差 舍 计 重 一 至。 
(三 ) 不 帮 回 的 简单 随机 抽样 


假设 采用 不 放 回 简单 随机 抽样 抽取 一 个 样本 量 为 a 的 样本 。 将 该 样本 分 成 大 
小 为 m 的 上 个 随机 组 ,= wm。 由 于 抽样 是 不 放 回 的 ,随机 组 之 间 就 不 独立 了 。 取 
= 也 由 于 其 为 线性 形式 , 故 总 体 均值 了 的 刀 切 法 估计 量 即 为 其 本 身 : 


0= 1 b=3 (10.42) 





式 中 ,第 a 个 虚拟 值 6 定义 为 : 
六 = 人 = hy- (k- 13) 


ml) 


而 yo = zt CR 1) 全 六 表示 合 弃 第 a 组 观测 值 后 的 样本 均值 


村 和 | 
mb) = 去 二 FD -8) = G6 一 (10.43) 
ua 人 人 对 于 放 回 的 简单 随机 抽样 是 (及 ) 的 无 偏 估计 ,但 在 不 放 回 简单 随机 
抽样 下 ,zi( 人 ) 不 再 是 V(9) 的 无 偏 估计 了 .事实 上 ,可 以 证 明 
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E[v( 信 ] = (10.44) 


六 
式 中 , 92 为 总 体 方差 .因此 ,zi(5) 的 偏 倚 为 : 
su] -vo -= 你 (10.45) 


a 
车 抽样 比 了 可 忽略 , 则 v1(9) 是 近似 无 偏 的 ;如 果 抽样 比 /不 能 忽略 , 则 一 个 


自然 的 修正 是 采用 估计 量 (1 - /)w1(8) 作为 方差 V(9) 的 估计 。 另 一 个 修正 的 办 
法 是 将 虚拟 值 定义 为 : 


BO7 = kG (kk—1) (10.46) 
式 中 ,8 = 5 + (1 亡 直 3(o ~ 男 此 时 了 的 刀 切 法 估计 为 : 

、 

"= (10.47) 
V(8" ) 的 刀 切 法 估计 则 为 : 

wi(B") = RD -86") (10.48) 
对 于 修正 的 刀 切 法 估计 ， 

久子 


引 [or 人 (6] = V5) = tts? 


当 上 且 仅 当下 = n,m = 1 时 ,w1(8*) = wv(3)。 

{ 四 ) 用 于 比率 估计 

刀 切 法 的 用 途 主 要 是 对 复杂 样本 或 非 线性 估计 进行 方差 估计 .这 里 ,给 出 它 在 
比值 估计 中 的 应 用 ,不 限定 具体 是 什么 抽样 方案 。 


|x 


假定 要 估计 上 比值 R = 关 , 其 中 Y 与 X 是 总 体 总 和 。 通 常 的 佑 计量 是 尺 = 





xX 


而 Y, 久 是 基于 特定 抽样 方案 的 总 体 总 和 的 估计 。 将 样本 分 成 大 小 为 m 的 个 随机 
组 ,n = mk, 则 虚拟 值 定义 为 : 


R, = kR (kg-1) Re (10.49) 
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起 中 ,Re = 并 2 ,而 Yo ,co 分 别 是 售 达 第 e 个 随机 组 后 Y 与 X 的 估计 .由 此 





条 出 上 的 刀 要 流光 计 为 
R= +> 良 (10.50) 
而 久 或 R 的 刀 切 法 方差 估计 为 : 
vl = Ry (10.51) 
0 (10.52) 


{ 例 10.5] 继续 使 用 例 10.3 的 拒 答 率 调查 数据 ,利用 刀 切 法 估计 拒 答 率 恨 的 
方差。 


解 : 根 据 样本 数据 ,估计 拒 答 率 闵 ， 














3 2 
~ 
R= 全 全 一 = = 0.251 402 92 
891 
根据 刀 切 法 估计 拒 答 率 六 的 方差 ,根据 抽样 层 ,样本 分 为 3 组 ,有 
2 
2 vy + 2 ys 146 
Rob = 二 下 一 = 592 = 0.2466216 
Dx; + Zrgi 
j=1 sl 
2 2 
. Pyy + 2 ys 154 
Rea = 十 3 = 04 = 0.259 259 
S94 
Iuy+t Dry 
气 A 
2 2 
机 2 + Zou 148 
Ra = 时 读 一 - = so¢ = 0.248 322 1 
596 
1 十 2 
全 大 
因此 虚拟 值 为 


玉 = 3R- (3—1) Ra = 0.260 966 
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R, = 3R-(3-1) R= 
Ry = 3R- (3-1) Ro = 
根据 刀 转 法 ,估计 拒 答 率 : 


用 刀 切 法 估计 拒 答 举 良 的 方差 : 





0.235 69 
0.257 564 


R= 本 (R + Ry + Rs) = 0.251 407 


1 
wilR) = Fr TR R) 
= 3 ~ 0.251 407)? = 0.000 062 72 





§10.5 


泰勒 级 数 法 


以 上 几 节 介绍 的 随机 组 估计 法 .平衡 半 样 本 法 和 刀 切 法 都 采用 样本 复制 的 原 
理 对 复杂 样本 进行 方差 估计 ,本 节 介 绍 的 泰勒 级 数 法 (Taylor series method) 是 一 
种 线性 化 方法 ,主要 是 利用 泰勒 展开 的 办 法 用 线性 估计 去 通 近 非 线性 估计 ,由 此 给 
出 非 线 性 估计 量 方差 的 一 个 近似 估计 。 显 然 ,泰勒 级 数 法 主要 是 针对 非 线性 估计 量 


的 方差 估计 ,而 且 它 本 身 不 能 独自 地 月 





于 方差 估计 ,在 提供 了 非 线性 估计 量 的 线性 


近似 之 后 ,还 需要 结合 其 他 方法 去 估计 这 个 线性 近似 的 方差 。 
对 于 一 个 有 限 总 体 N, 令 了 = (Yl,Y,，,…,Y,) 表示 总 体 参数 的 一 个 p 维 向 


量 , 以 Y = (YY ,Y,，…,,) 表示 基于 





样本 量 为 = 的 样本 的 相应 估计 量 。 估 计量 Y; 


的 形式 取决 于 抽样 设计 。 在 大 多 数 应 用 中 , Y; 表示 p 个 不 同 的 调查 指标 的 总 体 总 


和 或 总 体 均值 ,这 时 ,了 ; 通常 是 Y; 的 无 偏 估计 。 
假定 要 估计 的 总 体 参数 不 是 了 ,而 是 Y 的 函数 形式 6 = g(Y), 相 应 的 估计 量 


应 为 9 = g(Y)。 我 们 面临 两 个 问题 ;(1) 找到 3 的 方差 的 近似 表达 式 ; (2) 构造 9 方 


关 的 合适 的 估计 量 。 
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如 果 函 数 g(y) 在 包含 Y 和 立 的 某 个 开 集 内 具有 连续 的 二 阶 偏 导数 , 则 将 9 在 
Y 处 泰勒 展开 ,得 
0 - 2 + 二 总站 或- YS Y) 
(10.53) 
式 中 ,了 位 于 多 与 Y 之 问 。 
在 有 限 总 体 中 ,一 般 认为 (10.53) 式 中 的 第 二 项 相对 于 第 一 项 来 说 是 可 忽略 
的 ,因而 近似 地 有 


9-0~ 3 HY -») (10.54) 


8 的 均 方 误差 近似 为 : 
MSE(8) = E(8 — 0) 


2 
~ 本 


-De 
2d Ba 
式 中 , > = V( 人) 为 立 的 协 方差 矩阵 ;d 为 p 维 向 县 ,其 第 j 个 元 素 为 dj; = 
oag(Y) 
oy; ? 


至 于 上 述 均 方 误差 的 估计 ,只 需 将 相应 的 样本 估计 代入 即 可 。 这 样 , MSE (6) 
的 估计 量 为 : 


MSE(9) = ?3d 
式 中 ,总 为 可 的 估计 ;的 元 素 %2 = 2350。 
对 于 一 阶 近似 来 说 ,方差 V3) 与 偏 俐 B(3) 一 般 具有 相同 的 阶 。 故 [FB(3) 了 


相对 于 V(9) 来 说 具有 更 高 的 阶 ,因而 可 忽略 , 即 有 


MSE(B) = V(O) + [BOO) PF a VO) 
当然 ,如 果 进 一 步 泰勒 展开 ,可 以 得 到 二 阶 或 更 高 阶 的 近似 ,但 对 于 一 般 的 复 
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杂 样本 调查 的 方差 估计 ,一 阶 近似 已 可 以 产生 较 满 意 的 结果 。 此 外 ,车 总 体 发 生 严 
重 售 丛 ,这 种 近似 是 不 可 靠 的 。 


$10.6 ”方法 的 比较 


本 章 介 绍 了 复杂 样本 方差 估计 的 四 种 方法 , 即 随机 组 方法 平衡 半 样 本 方法 、 
刀 切 法 以 及 泰勒 级 数 法 ,在 实际 应 用 中 ,究竟 应 该 选用 哪 一 种 方法 ?本 节 从 方差 估 
计 的 精度 、 费 用 和 时 间 以 及 操作 的 简便 性 等 方面 对 这 些 方法 进行 比较 。 

{一} 精度 

首先 ,应 注意 方差 估计 量 的 精度 可 以 用 不 同 的 标准 进行 衡量 , 如 偏 倚 , 均 方 误 
差 . 吐 信 区 间 覆 盖 概 率 等 不同 的 方差 估计 景 在 不 同 的 标准 下 可 能 都 是 最 好 的 。 根 
据 K.M. Wolter 的 研究 ,用 偏 倚 和 均 方 误差 标准 都 难以 直接 判断 方差 的 最 优 估计 
晤 ，- 般 把 兽 信 区 间 覆 盖 概 率 作为 最 重要 的 精度 标准 。 

从 精度 上 考虑 ,四 种 方法 在 大 样本 情况 下 效果 差不多 ,对 于 中 小 样本 ,已 有 的 
蒙特 卡 洛 研 究 的 结果 显示 , 若 以 偏 倚 和 均 方 深 差 作为 标准 , 则 泰勒 级 数 法 较 好 ,在 
某 些 情况 下 可 能 是 最 好 的 ;而 随机 组 方差 估计 在 许多 应 用 中 较 之 其 他 三 种 方法 有 
更 大 的 均 方 误差 ,但 是 从 置信 区 问 的 覆盖 概率 的 角度 看 ,平衡 半 样 本 方法 最 好 ， 
次 是 随机 组 方法 和 刀 切 法 。 

{二 ) 费用 和 时 间 

从 费用 \ 时 间 上 考虑 ,随机 组 方法 和 平衡 半 样 本 方法 都 是 值得 推荐 的 ,这 两 种 
方法 的 计算 部 有 现成 的 软件 ,数据 处 理 费 用 相对 较 低 ,在 大 规模 的 调查 中 ,平衡 半 
样本 方法 的 费用 还 要 低 , 刀 切 法 比较 费时 费力 ,主要 是 因为 目前 还 没有 现成 的 软件 
来 应 用 这 一 方法 ,如 前 所 述 ,泰勒 级 数 法 本 身 不 能 单独 使 用 , 它 必须 与 其 他 方法 结 
合 起 来 才能 对 方差 进行 估计 ,其 费用 的 高 低 主 要 依赖 于 与 之 配合 使 用 的 其 他 方差 
估计 方法 。 例 如 , 若 用 必 切 法 估计 协 方差 矩阵 ,那么 泰勒 级 数 法 的 费用 可 能 相当 大 。 

{三 ) 操作 的 简便 性 

一 般 地 说 ,随机 组 方法 是 最 灵活 的 方差 估计 方法 之 一 ,适用 于 几乎 任何 估计 
基 ; 同 时 , 它 也 是 用 途 最 广 的 方法 ,适用 于 几乎 任何 抽样 设计 。 平 衡 半 样本 法 从 适用 
的 估计 晤 的 类 型 看 ,其 灵活 性 不 进 于 征 机 组 法 ,但 是 从 抽样 设计 的 角度 看 , 它 常 常 
被 认为 局 限于 分 层 的 、 每 层 抽 两 个 单元 的 抽样 设计 。 当 然 ,使 用 更 复杂 的 平衡 方案 ， 
平衡 六 样本 法 也 可 用 于 每 层 册 三 个 及 以 上 单元 ,或 者 每 层 只 抽 一 个 单元 的 抽样 设 
计 . 刀 人 协 法 可 用 于 抽样 调查 实践 中 可 能 出 现 的 大 多 数 估计 量 , 从 应 用 的 广度 看 , 它 

244 
















































































与 平衡 半 样 本 法 不 相 上 下 . 仁 比 不 上 随机 级 方法 .泰勒 级 数 法 在 适 几 抽 样 设计 和 估 
计量 上 与 共 他 方法 有 同样 的 灵活 性 。 

总 之 ,对 方差 估计 方法 进行 选择 足 一 个 复杂 的 问题 , 山 要 综合 考虑 精度 、 费 用 
和 时 间 、 可 操作 性 等 各 种 因 灰 ,在 它们 之 间 进 行 权衡 。 





小 结 


实际 冰 查 往往 是 一 种 复杂 抽样 调 售 , 对 于 复杂 样本 的 方差 估计 需要 采用 随机 


组 方法 ,平衡 半 样 本 法 . 刀 切 法 以 及 泰勒 级 数 法 等 方差 估计 方法 。 


随机 组 方法 的 实质 是 按 一 定 的 





平衡 半 样 本 方法 也 是 一 种 重 抽样 方法 , 它 将 各 层 中 随机 组 数 减 


方差 估计 计算 的 效率 .但 是 它 与 随机 组 方法 有 所 区 别 。 

刀 切 法 用 重 抽样 技巧 可 以 将 原来 的 总 体 进行 复制 
原来 的 抽样 办 法 再 复制 抽样 样本 及 构造 同样 结构 的 有 关 参 数 的 统计 量 。 由 于 复制 
的 总 体 及 统计 员 是 原 有 总 体 及 统 
的 均值 .万 差 等 特性 在 内 的 几乎 一 切 为 我 们 所 关心 的 指标 均 可 以 通过 计算 得 到 。 














f 量 的 一 个 缩影 ,而 在 复制 的 模型 





泰勒 级 数 法 属于 线性 化 的 方差 估计 方法 .其 实质 是 将 非 线性 估 i 
泰勒 级 数 展 开 可 以 用 线性 估计 去 着 近 非 线性 估计 晤 ,从 而 得 到 非 线性 方差 估计 量 





的 近似 估计 。 





抽样 方案 从 总 体 中 抽取 若干 组 样本 ,对 于 每 一 
组 样本 都 建立 有 关 参 数 的 估计 量 。 这 些 估计 量 之 间 的 离散 程度 , 即 样本 方差 就 可 月 
于 计算 全 样本 估计 量 的 方差。 


,在 复制 的 总 体 中 ,可 以 使 有 


为 两 个 以 提高 





,包括 统计 量 





上 线性 化 。 利 有 








对 复杂 样本 的 方差 估计 方法 进行 选择 是 一 个 复杂 的 问题 ,需要 综合 考虑 精度 、 
费用 和 时 间 、 可 操作 性 等 各 种 因素 ,在 它们 之 间 进 行 权 衡 。 


本 章 附 录 








杂 样 本 的 方差 估计 的 性 质证 明 


1. 让 明 性 质 1: 设 扣 ,后 ,…, 抽 是 相左 独立 的 随机 变量 ,并 电 具 有 相同 的 期 





(10.2) 
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证 明 :显然 ,E(5) = ,而 u(8) 可 以 表达 为 : 
v0) = Fi zn 7) 
bi 足 相互 独立 的 , 克 有 
Elv(8)] = ji [vd + p21 = 4[ VO) + | 
= je [V0) -&V(D)] 
= vB) 
统计 量 6 可 作为 9 的 估计 量 ,而 v( 了 ) 是 方差 VC 了) 的 随机 组 估计 量 。 
2. 证 明 性 质 3;， 设 瑟 ( 名 ) = jp (po 不 一 定 等 于 9), 则 





有 E00)] = (VO) + reiy > Eye Hi DEE 2) 
(10.11) 
证 明 :显然 ,E(8) = (9) 可 以 表示 成 
全 人 2 直上、 
za(5) = Ue 
全 2 2 vs 
Fl)] = E(F) 一 A 
2 2 Sh 
= [ve + | -zDD Ld) + pp | 
1 





-ze 0 ow, bp) 


ol BS 


3. 证 明 性 质 6: 2 个 统计 量 (3,。- 如 ?的 平均 是 V(F) 的 一 个 无 偏 估计 
量 ， 





zt 


EB| 冯 (3 Ss — Da) = Vs) (10.20) 
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证 明 : 定 义 
840) 28 11 下 第 层 中 第 一 个 单元 被 选 人 第 = 个 半 样 本 
”|=-1, 第 有 层 中 第 二 个 单元 被 选 人 第 a 个 半 样 本 
则 











(we — Ww) = 2 wid? + 2 aha WW dar 


人 be 


1 
= v(34)+ 方 1 六 sosfoWW ct 


YY 


因为 层 h 和 层 A 中 任何 一 对 单元 都 是 正好 出 现在 25-? 个 半 样 本 中 , 故 有 
六 sleep = 0, 则 


1. 为 了 估计 某 镇 的 失业 率 ,进行 分 层 随机 抽样 ,四 个 城区 作为 四 层 , 并 假定 层 
权 Wi = len 1,2,3,4); 独 立 抽取 3 个 样本 ,分 别 调查 劳动 人 口 数 及 失业 人 数 ， 


结果 见 下 表 ( x 表示 劳动 人 口 数 ,yw 表示 失业 人 数 ) , 试 估计 该 镇 失业 率 并 估计 其 
方差 。 
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某 镇 失业 情况 调查 结果 


























层 | 样本 ! 上 样本 2 样本 3 
El Wl | Th2 Ma rh D3 
1 520 46 515 50 515 46 
2 501 | 37 488 46 488 40 
3 $79 58 1 469 43 469 47 
4 507 40 S00 49 496 4 
2, 假 没 某 学 校 调查 学 生 对 学 校 伙 食 的 满意 度 ,抽样 方式 为 分 层 随 册 抽 样 ,从 








三 个 年 级 中 各 自 随 机 抽取 两 个 班级 ,假设 各 年 级 权重 相同 , W, = 到 = 1,2,3); 


调查 结果 表示 满意 的 学 生 人 数 见 下 表 。 试 估计 学 生 对 学 校 伙食 的 满意 比率 RR 并 用 
平衡 半 样本 方法 估计 其 方差。 
































学 生 对 学 校 伙食 的 满意 情况 
年 级 | 班级 (S,) 班级 (S2) 
满意 人 数 (y, ) | 就 餐 人 数 (71) | 满意 人 数 (y,) | 就 餐 人 数 (2) 
1 41 80 37 79 
2 3 | 79 30 68 
3 法 38 72 38 55 
总 计 119 231 i 99 I 202 








3. 假设 某 镇 有 10 个 街道 ,每 个 街道 有 15 个 居委会 为 了 调查 该 镇 的 人 口 出 生 
率 , 采 用 二 阶 简单 随机 机 样 法 抽取 4 个 街道 ,并 在 每 个 街道 中 抽取 6 个 居委会 ,对 
每 个 被 抽 中 的 居委会 调查 其 上 一 年 的 人 口 数 及 新 生 归 儿 数 ,结果 见 下 表 (x 表示 人 




















口 数 ,y 表示 新 生 婴 儿 数 )。 试 估计 该 镇 的 人 口 出 生 率 并 给 出 方差 估计 。 
某 镇 人 口 数 及 新 生 婴 儿 数 抽样 结果 
会 
_ 居委会 1 2 3 4 5 6 
街道 
站 了 EE 了 E4 y EE y EE » EE » 
t 520| 1 1485| 2 |46|110155|3 |58| 9 1a2| 7 
2 405| 5 1501| 6157| 3|50| 51a2 2 |488| 4 
3 504| 4 153217 |579) 6 142| 7 1469| 3 155| 4 
4 1529| 5 |s30| 2145|[ 1 |523|10|567: 7 |57| 3 
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调查 中 的 非 抽样 误差 








抽样 调查 中 的 误差 包括 抽样 误差 和 非 抽 样 误差 。 抽 样 误差 是 指 由 于 抽样 的 随 
机 性 所 引起 的 样本 统计 量 的 数值 与 总 体 目标 变量 真 值 之 问 的 差异 , 它 是 抽样 调查 
所 特有 的 。 抽 样 误 差 在 概率 抽样 的 条 件 下 可 以 计量 ,并 通过 抽样 设计 加 以 控制 。 前 
面 各 章 的 内 容 主要 是 围绕 抽样 误差 的 计量 和 控制 展开 的 , 当然 这 是 假定 样本 的 数 
据 是 可 以 准确 获得 的 。 事 实 上 抽样 调查 中 除了 抽样 误差 以 外 ,还 存在 大 量 的 非 抽样 
误差 ,本 章 就 讨论 这 个 问题 -第 一 节 是 对 非 抽样 误差 的 综合 性 介绍 ,第 二 节 讨 论 抽 
样 框 误差 ,第 三 节 讨 论 无 回答 误差 ,第 四 节 讨论 计量 误差 ,第 五 节 讨 论 离 群 值 的 检 
测 和 处 理 。 


















































$11.1 引言 





非 抽样 误差 是 指 除 抽样 误差 以 外 的 ,由 于 各 种 原因 引起 的 误差 在 概率 抽样 、 
非 概率 抽样 其 他 全 面 调查 和 非 全 面 调查 以 及 普查 中 , 非 抽样 误差 都 有 可 能 存 














同 抽 祥 误差 相 比 , 非 抽样 误差 有 如 下 特点 : 
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首先 , 非 抽 样 误差 不 是 由 于 抽样 的 随机 性 带 来 的 ,所 以 在 抽样 调查 中 , 它 不 可 
能 随 着 样本 量 的 增 大 而 变 小 * 有 时 情况 可 能 还 会 相反 ,样本 量 越 大 , 非 抽样 误差 也 
越 大 ,因为 随 着 调查 中 更 多 人 员 的 涉 和 人 ,会 增 大 非 抽样 误差 出 现 的 机 会 。 








如 果 非 抽样 误差 产生 于 调查 中 的 无 回答 ,而 





其 次 ,在 抽样 调查 中 , 由 于 非 抽样 误差 的 影响 ,往往 造成 估计 重 的 有 偏 。 例 如 ， 


回答 层 和 无 回答 层 的 被 调查 单元 在 目 


标 变量 方面 存在 差异 ,仅仅 用 回答 层 的 观测 数据 对 总 体 目标 变量 进行 推断 ,就 会 造 


成 有 偏 估计 。 











第 二 ,有 些 非 抽样 误差 难以 识别 和 测定 。 例 如 ,如 果 抽 样 框 是 不 完善 的 ,而 调查 


设计 人 员 并 没有 意识 到 ,由 不 完善 的 抽样 框 进 行 设计 所 得 到 的 调查 结果 自然 包含 





非 抽 样 误差 ,而 使 用 数据 人 员 却 没有 意识 到 








中 后 一 种 情况 更 为 多 见 。 
最 后 ,由 于 产生 非 抽样 误差 的 渠道 众多 


,也 不 可 能 知道 。 另 一 种 情况 是 ,调查 人 





员 意 识 到 非 抽 样 误 差 可 能 存在 ,但 无 法 准确 判断 ,无 法 对 其 进行 计量 。 在 调查 实践 


,有 些 非 抽样 误差 成 因 复杂 ,尤其 当 调 


查 对 象 是 人 的 时 候 , 社 会 因素 、 经 济 因素 对 非 抽 样 误差 的 范围 和 程度 都 产生 不 可 忽 
视 的 影响 。 而 且 与 抽样 误差 相 比 ,对 非 抽样 误差 的 研究 尚 有 距离 。 因 此 ,从 实践 角度 
看 , 非 抽 样 误差 对 调查 数据 质量 和 估计 结果 的 负面 影响 是 非常 大 的 ,对 此 必须 引起 


高 度 重视 。 











及 数据 的 处 理 与 分 析 阶 段 。 


非 抽样 误差 可 以 产生 于 抽样 调查 的 各 个 阶段 ,包括 调查 及 抽样 设计 ,数据 采集 


1. 调查 及 抽样 设计 阶段 。 调 查 设计 包括 多 项 工作 , 哪 一 项 工作 出 现 问题 都 可 
能 造成 难以 补救 的 后 果 。 例 如 ,调查 的 问卷 设计 有 缺陷 ,所 用 词汇 的 含义 不 清 ,造成 
被 调查 者 的 多 种 理解 而 提供 了 不 准确 的 信息 。 抽 样 设计 中 ,抽样 框 不 完善 是 一 个 主 
要 问题 ,不 完善 的 抽样 框 是 指 抽 样 框 中 包含 的 单元 与 目标 总 体 中 的 单元 不 一 致 , 例 





如 属于 调查 对 象 的 单元 在 抽样 框 中 不 存在 ， 











不 属于 调查 对 象 的 单元 却 出 现在 抽样 


框 中 .不 完善 抽样 框 还 包括 这 样 的 情况 , 即 抽样 框 中 的 辅助 信息 与 现实 情况 严重 仿 
离 ,造成 样本 抽 选 的 "误导 "。 使 用 不 完善 的 抽样 框 是 产生 非 抽样 误差 的 一 个 重要 














原因 。 





2. 数据 采集 阶段 ,这 又 可 以 分 为 两 个 方面 ,一 个 方面 是 调查 实施 过 程 中 ,调查 
人 员 没 有 从 被 调查 者 那里 得 到 所 需要 的 信息, 这 种 情况 的 产生 可 能 有 多 种 原因 。 例 
如 由 于 地 址 不 详 或 搬迁 ,调查 人 员 没有 找到 被 调查 者 ,或 者 被 调查 者 不 在 家 ,或 者 
被 调查 者 虽然 在 家 , 却 由 于 某 种 原因 没有 接受 调查 。 这 种 现象 通常 被 称 为 无 回答 。 
无 回答 是 造成 数据 采集 阶段 非 抽样 误差 的 主要 原因 。 另 一 个 方面 是 在 数据 采集 过 
程 中 ,被 调查 者 虽然 提供 了 回答 ,但 与 真实 情况 不 一 致 .这 种 情况 大 多 在 敏感 性 调 
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查 项 目 上 出 现 。 如 果 调 查实 施 后 发 现 被 调查 者 


就 变 成 了 无 回答 
实践 中 调查 数据 的 失真 主要 来 自 导 
查 人 员 有 意 或 无 意 的 诱导 ,记录 调查 结果 
量 工具 不 精确 也 会 使 测量 结果 出 现 误差 。 
3. 数据 处 理 与 分 析 阶 段 。 主 要 指 对 调 














提供 的 信息 明显 失真 而 将 其 蓟 除 , 这 








F 被 调查 者 ,但 有 时 也 与 调查 人 员 有 关 , 如 调 


出 现 错误 等 。 当 被 调查 单元 是 物体 时 , 计 


查 资料 进行 审核 .整理 ,编码 和 录 人 过 程 





中 出 现 差错 所 
权 却 没有 加 权 , 或 者 使 月 
型 的 误差 ,将 其 归 人 调查 设计 误差 也 是 


与 抽样 方式 不 村 


加 




















引起 的 误差 。 误 差 还 可 能 产生 于 不 了 
匹配 的 
可 以 的 。 


E 确 的 估计 程序 之 中 ,例如 应 当 加 
估计 方式 ,等 等 ,对 于 最 后 一 种 类 








同 











上 述 非 抽样 误差 按 其 来 源 、 性 质 不 


,可 以 分 为 以 下 三 类 : 


(1) 抽样 框 误 差 , 即 由 不 完善 的 抽样 框 引起 的 误差 。 
(2) 无 回答 误差 , 即 由 于 种 种 原因 没有 从 被 调查 单元 获得 调查 结果 ,造成 调查 


数据 的 缺失 。 


(3) 计量 误差 , 即 所 获得 的 调查 数据 与 其 真 值 之 问 不 一 致 造成 的 误差 。 


$11.2 ”抽样 要 误差 


一 ,概念 


为 了 说 明 抽 样 框 误 差 , 有 必要 对 总 体 的 概念 
个 ,一 个 是 目标 总 体 , 即 作 为 调查 研究 对 象 的 全 体 ,这 是 通常 意义 上 所 
选 样本 的 总 体 。 
铀 样 总 体 完全 重合 ,就 是 说 目标 总 体 单 元 和 抽样 总 体 单 
有 样 框 就 是 不 完善 的 ,这 意味 着 有 可 


一 个 是 抽样 总 体 , 即 从 中 外 
样 框 的 标志 是 日 标 总 体 和 
元 完全 是 一 一 对 应 的 关系 ,省 则 , 提 
框 误差 。 

抽样 调查 中 











F 有 一 个 完善 的 抽样 框 当然 最 好 ,但 在 实践 


F 的 总 体 有 两 
说 的 总 体 ; 另 
抽样 总 体 的 具体 表现 是 抽样 框 。 理 想 抽 





量 新 说 明 ,抽样 调查 中 





[能 出 现 抽样 


由 于 种 种 原因 ,特别 是 





由 于 资料 方面 的 原因 ,构造 出 完善 的 抽样 框 往往 不 容易 。 不 完善 抽样 框 的 主要 问题 


是 总 体 中 单元 数 NN 不 准确 ,这 时 利 
估计 偏 倚 。 这 种 误差 并 不 是 来 自 于 
以 抽样 框 误差 是 一 种 非 抽样 误差。 








用 样本 统计 量 对 总 体 参数 进行 估计 就 可 能 产生 
外 样 的 随机 性 , 面 是 产生 于 不 完善 的 抽样 框 ,所 


对 抽样 框 误差 进行 分 析 ,首先 是 把 握 抽样 框 误差 的 类 型 ,再 在 此 基础 上 探讨 减 


小 抽样 框 误差 的 途径 。 
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二 ,抽样 框 误差 类 型 及 影响 

{一 ) 抽样 框 误差 类 型 

1. 委 失 日 标 总 体 单元 。 这 足 指 抽样 框 没 能 履 盖 所 有 总 体 单元 .有 些 总 体 单 元 
本 属于 调查 对 象 ,但 由 于 没有 在 抽样 框 中 出 现 ,因而 不 可 能 被 选 人 样本 。 丢 从 单元 
会 造成 总 量 佑 计 伍 低 ,也 会 造成 均值 (或 比例 ) 估计 的 偏 倚 。 通 常 , 竺 失 单元 的 问题 
不 易 被 查 觉 , 或 者 即使 知道 抽样 棋 多 盖 不 全 ,但 如 何 杂 找 丢失 单元 也 很 困难 。 丢 失 
单元 是 一 种 威胁 性 较 大 的 抽样 框 误差 . 

2. 包含 非 日 标 总 体 单元 这 十 措 抽样 框 中 包含 了 一 些 本 不 属于 调查 对 象 的 非 
目标 总 体 单元 ,例如 对 家 庭 进 行 电话 调查 ,在 由 电话 短 组 成 的 抽样 框 中 有 一 些 机 构 
的 电话 号 码 ,这些 机 构 的 号 码 就 属于 非 日 标 总 体 单元 。 另 一 种 表现 是 ,有 些 家 庭 的 
电话 已 拆 ( 如 家 庭 搬迁 ) ,但 原 号 码 仍 保留 在 抽样 框 中 .包含 非 目标 单元 使 得 抽样 总 
体 单元 个 数 大 于 目标 总 体 单元 个 数 ,造成 总 量 佑 计 偏 高 .由 于 发 现 非 日 标 总 体 单 元 
相对 容易 ,并 可 以 通过 一 定 程 闻 将 其 蓟 除 , 所 以 与 丢失 目标 总 体 单元 相 比 ,包含 非 
目标 总 体 单元 的 误差 影响 要 小 些 。 

3. 复合 连接 ,这 是 指 抽样 民 中 的 单元 与 日 标 总 体 单元 不 完全 是 一 一 对 应 的 关 
系 ,个 抽样 框 单元 连接 多 个 目标 单元 ,或 一 个 目标 单元 连接 多 个 抽样 框 单元 例 
如 以 居住 的 门牌 号 作为 住户 调查 的 抽样 框 ,一 个 门牌 号 内 居住 两 户 或 多 户 家 庭 就 
属于 ~- 个 抽样 框 单元 连接 多 个 日 标 单元 的 情形 ,而 - - 广 拥有 两 处 或 多 处 住房 属于 
一 个 日 标 单元 连接 多 个 抽样 框 单元 的 情形 。 复 合 连接 的 情况 如 果 严 重 , 将 会 造成 样 
本 的 实际 抽 选 与 设计 要 求 发 生 偏离 ,从 而 对 估计 结果 产生 影响 。 

4. 不 正确 的 辅助 信息 .有些 抽 样 设 计 需 要 抽样 框 提供 辅助 信息 ,如 分 层 抽样 、 
不 等 概 抽样 .比率 估计 和 回归 估计 等 ,如 果 这 些 辅助 信息 不 完全 或 不 正确 , 不仅 不 
能 提高 估计 的 效 常 ,有 时 反而 会 降低 估计 的 准 侈 手 。 

(二 } 对 摧 样 框 误 差 的 基本 认识 

对 抽样 杠 误 差 类 型 讨论 之 后 ,结合 实际 应 用 有 几 点 基本 认识 。 

1. 有 些 误 辣 来自 构成 抽样 框 资料 的 本 身 。 尽 管 设 计 工 作 十 分 细致 ,但 仍 无 法 
避免 误差 ;有 些 则 是 因为 研究 工作 不 够 ,资料 准备 不 足 ,否则 有 可 能 建立 一 个 比较 
好 的 抽样 框 。 

2. 抽样 框 中 的 问题 有 些 容易 被 发 现 , 有 些 丰 容易 被 发 现 , 即使 对 于 被 发 吏 的 
问题 ,有 些 也 不 容易 解决 。 内 此 抽样 框 的 维护 .抽样 框 使 用 情况 的 不 断 总 结 与 研讨 ， 
对 于 经 常 性 的 调查 项 目 来 说 是 十 分 必 贤 的 。 

3. 抽样 框 不 完善 并 个 意 昧 着 不 能 使 用 :对 不 完善 的 抽样 框 进行 修补 .调整 ,有 
计 容 纱 , 有 时 则 比较 困难 , 震 要 一 定 的 财力 支持 :不 完善 抽样 框 是 否 具有 被 使 用 被 
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修改 的 价值 ,主要 取决 于 抽样 框 的 误差 程度 .修改 后 所 提高 的 估计 效率 .为 此 所 付 
出 的 时 间 积 费用 以 及 抽样 框 的 使 用 次 数 。 

4. 抽样 框 误差 在 有 些 场合 会 被 解释 为 其 他 类 型 的 非 抽 样 误差 ,例如 使 用 地 图 
样 框 ,在 区 域 边缘 常会 出 现 交错 现象 ,将 域内 单元 划 出 或 将 域外 单元 划 人 。 有 些 
认为 这 是 抽样 框 误差 ,但 说 成 计量 误 益 也 有 道理 。 

{ 三 ) 抽样 框 误 差 的 影响 
分 析 抽 样 框 误差 影响 的 一 项 重要 内 容 , 是 对 抽样 框 误 差 造 成 的 偏 倚 进行 定量 
分 析 。 鉴 于 于 失 日 标 总 体 单元 是 抽样 框 误差 中 最 常见 的 一 种 ,上 故 以 此 为 例 做 稍 加 深 
人 的 分 析 。 
设 目标 总 体 由 Ni 个 抽样 枢 中 单元 和 No 个 抽样 框 中 丢失 的 单元 组 成 , 即 N = 
Ni + No, 则 总 体 总 和 与 均值 估计 的 情况 如 下 。 
1. 总 和 估计 ,总 体 总 和 的 真 值 是 : 
Y= DY+OY=Y+Yo (11.1) 
现 从 抽样 框 中 的 N, 个 单 苞 中 采用 简单 随机 抽样 抽出 容量 为 n 的 一 个 样本 ， 
出 于 wn 取 自 于 Nj, 为 一致 不 妨 记 为 mi ,对 总 体 总 和 Y 的 估计 为 : 


= Dy (11.2) 
显然 此 时 的 估计 是 有 偏 的 , 偏 倚 为 : 
E(Y)-Y= YI-Y=~- Yo (11.3) 
这 表明 佑 计量 低估 了 总 体 总 和 。 令 





> 等 











则 YY 的 相对 偏 乔 可 以 写 为 : 
-ys (11.4) 
Y rWo + {1 — Wo) 

由 上 式 看 出 ,总 体 总 和 估计 的 相对 偏 倚 取决 于 + 和 Wo 两 个 因素 -如 果 = ， 
邵 丢 失 单 位 均值 与 抽样 框 单位 均值 相同 , 则 相对 偏 倚 为 ~- Wo。 抽 样 调查 的 实践 中 ， 
抽样 框 中 的 丢失 单元 往往 规模 较 小 ,一般 为 + < 1, 故 相对 偏 倚 的 绝对 值 也 就 小 于 
Wo 的 绝对 值 r 与 Wo 的 关系 可 从 表 11.1 略 见 一 班 。 

2. 均值 估计 。 在 抽样 框 存在 丢失 单元 情况 下 ,均值 估计 量 为 




















yy (11.5) 
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表 11.1 丢失 单元 条 件 下 总 体 总 和 估计 的 相对 篇 全 
Yo 
盏 失 单 元 比重 -到 
(Wo) 1 . 
0,5 0,9 1.0 .1 2.0 
0.01 -0.0050 -0.0090 一 0.010 -0.0109 一 0.019 8 
0.05 -0.0256 一 0,045 2 一 0.050 一 0.054 了 一 0.095 2 
0.10 -0.0526 -0.0909 —0.100 一 0.1089 | 一 0.1818 
0.25 -0.1429 | -0.2308 | -0.250 | -0.2683 | -0.4000 
0.50 -0.333 | -0.4737 | -0.50 | -0.5238 | -0.6667 
些 时 估计 量 的 偏 倚 为 : 
E(Y)- Y= Wo(yi -Yo) (11.6) 
了 的 相对 偏 倚 可 以 写 为 : 
Wo(T -7o) _ Woll ~ 7) 
rrWot (1- Wo {11.7) 


由 上 式 看 出 ,如 果 丢失 单元 均值 和 抽样 单元 均值 相同 , 即 = 1, 则 估计 量 立 
是 目标 变量 了 的 无 偏 估计 。 反 之 ,如 果 > 关 1, 偏 倚 状 况 则 随 x 的 变化 而 变化 ,这 种 





























情况 见 表 11.2。 
表 11.2 丢失 单元 条 件 下 总 体 均值 估计 的 相对 篇 傅 
国 Yo 
丢失 单元 比重 “有 
{ Wo) i : 
0.5 0.9 1.0 1.1 2.0 
0.01 0.0050 0.001 0 0 -0.0009 | -0.0099 
0.05 0.0256 0.0050 0 -0.0049 一 0.0476 
0.10 0.052 6 0.010 1 0 一 0.0099 一 0.0909 
0.25 0.1429 0.0256 0 一 0.024 4 一 0.2000 
0.50 0.333 3 0.0526 0 一 0.0476 一 0.333 3 
三 \ 不 完善 抽样 框 的 使 用 


抽样 框 不 完善 并 不 意味 着 不 能 使 用 ,因为 构造 一 个 完善 的 抽样 框 有 时 是 非常 

















难 的 。 使 用 不 完善 抽样 框 时 若 能 采用 一 些 补救 措施 ,有 助 于 减 小 抽样 框 误差 .对 


不 完善 抽样 框 进行 补救 的 具体 方法 有 多 种 ,大 致 可 以 分 为 三 种 类 型 。 一 种 是 利用 核 
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查 或 其 他 有 关 资 料 ,掌握 误差 情况 ,对 不 完善 的 抽样 框 进行 调整 ,或 对 不 完善 抽样 
框 所 得 到 的 估计 量 进行 调整 ;第 二 种 是 事先 制定 一 些 规则 ,对 发 现 的 抽样 框 问题 进 

















行 现场 处 理 ; 第 三 种 是 使 用 多 个 
施 做 些 讨论 。 
(一 } 实行 连接 


样 框 进行 抽样 -下 面 主要 对 后 两 种 类 型 的 补救 措 





这 种 方法 是 事先 制定 一 些 规则 ,使 没有 包含 在 抽样 框 中 的 目标 单元 与 包含 在 











抽样 框 中 的 单元 相连 接 , 以 弥补 





几 个 月 前 准备 好 的 学 生 名 单 中 抽 


样 框 中 丢失 单元 所 造成 的 影响 例如 ,和 欲 从 一 份 
选 一 个 在 校 学 生 的 样本 ,新 转 来 学 生 的 名 单 没有 


列 入 抽样 框 中 , 因 面 没有 机 会 入 选 样本 。 事 先 制定 的 规则 为 ,每 个 新 学 生 与 所 在 班 
名 单 上 的 最 后 一 名 学 生 相 连接 ,如 果 最 后 一 名 学 生 被 抽 中 ,新 学 生 也 就 算 被 抽 中 并 
一 起 接受 调查 ,这 样 就 把 可 以 查 明 的 丢失 单元 纳入 到 不 完善 的 抽样 框 中 。 这 些 丢 失 
单元 与 抽样 总 体 中 单元 被 选中 的 概率 相 司 ,因而 得 到 的 估计 量 也 是 无 偏 的 。 

住户 调查 中 ,抽样 框 可 能 漏 掉 一 些 新 建 的 房屋 。 如 果 调 查 名 单 上 一 栋 住 宅 与 下 
一 栋 住宅 的 调查 路 线 确定 后 ,那么 位 于 名 单 住宅 之 间 , 而 在 和 名单 上 又 漏 掉 的 房屋 都 
可 以 与 刚刚 经 过 的 上 一 栋 住宅 连接 起 来 。 








(二) 惟一 连接 














抽样 框 误差 的 一 种 类 型 是 复合 连接 。 例 如 以 心血 管 病 患者 的 就 诊 病历 为 抽样 
框 ,对 心血 管 病 患者 进行 抽样 调查 有些 患 者 在 不 同 的 医院 看 过 病 , 这 些 人 被 抽 中 




















的 概率 就 高 于 其 他 人 。 可 以 规定 ， 





上 成 抽样 框 。 
{三 ) 使 用 多 个 抽样 框 





有 两 个 以 上 病历 者 ,以 最 近 就 医 记 录 的 病历 号 组 





这 是 指 在 抽 选 样本 过 程 中 使 用 两 个 或 多 个 抽样 框 。 这 种 方法 主要 用 于 抽样 框 
中 丢失 单元 的 情况 ,既然 一 个 抽样 框 覆盖 不 全 ,就 采用 多 个 抽样 框 。 在 实践 中 多 采 
用 两 个 抽样 框 ,如 名 录 框 和 地 域 框 同时 使 用 。 使 用 多 个 抽样 框 的 主要 问题 是 容易 产 
生 重 肥 现象 ,如 有 A 和 了 B 两 个 抽样 框 ,情形 如 图 11.1。 












































图 11 抽样 框 的 重合 

















中 的 AB 就 是 重 酸 部 分 。 重 登 会 对 估计 产生 影响 ,解决 的 办 法 是 剔除 重 树 。 














如 果 抽 样 框 了 中 的 单元 在 抽样 框 A 中 也 存在 ,就 将 其 吻 除 。 但 剔除 工作 有 时 十 分 困 
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难 ,甚至 碟 法 实施 ,这 就 需要 利用 有 重要 的 抽样 框 进行 估计 。 

设 样本 取 自 A,B 两 个 抽样 框 -这 两 个 抽样 框 的 单元 数 分 别 为 NA , Na。 两 个 抽 
样 框 将 目标 总 体 划分 为 三 个 区 域 。 
区 域 a: 其 中 的 单元 仪 仪 与 抽样 框 A 有 联系 ,单元 个 数 为 N,; 
区 域 ;其 中 的 单元 仅仅 与 抽样 杠 忆 有 联系 ,单元 个 数 为 We; 
区 域 :其 中 的 单元 与 抽样 框 A,B 均 有 联系 ,单元 个 数 为 Nw。 

现 采 用 简单 随机 抽样 ,从 A,B 框 中 分 别 抽 出 容量 为 na ,za 的 两 个 样本 。 利 用 
抽样 框 A 的 样本 对 区 万 a 和 区 域 a5 进行 事后 分 层 的 总 和 估计 分 别 为 : 


























Po) = Myata) (11.8) 
也 (ob) = De (ab) (11.9) 





趟 中 ,ni 与 mu 为 落 入 区 域 e 和 区 域 a6 的 样本 单元 数 ; ya(a) 和 ya(ab) 为 区 域 a 
和 区 域 8 的 样本 观测 值 总 和 。 

类 似 地 ,利用 抽样 框 B 的 样本 对 区 域 s 和 区 域 a6 进行 事后 分 层 的 总 和 估计 分 
别 为 : 





Ya(5) = Deys(6) (11.10) 

Ya(ab) — Mey (ob) (11.11) 
于 是 ,目标 总 体 的 总 和 估计 为 : 

Y= Yla) + WaY,(ab) + We Yo(ub) + Ya(b) (11.12) 


式 中 ,Wa ,Ws 为 适当 选取 的 权 数 , 目 有 WA + Ws = 1。 
倘若 nm ,no 都 足够 大 ,使 和 未 可 以 忽略 ,是 有 限 总 体 修正 系数 fpr 也 忽略 
不 计 , 则 估计 量 Y 的 方差 近似 为 ; 
RU2 NU2 
VO ALS -reW3s2 + SAL SHC -月 + 
{11.13) 
式 中 ,a,8 分 别 为 重合 部 分 的 单元 占 抽样 枢 单 元 的 比例 , 即 
_ No _ Ne 
TN’ BT Ng 
而 S2,S2 和 S2 分 别 为 目标 总 体 三 个 区 域 的 方差 。 
确定 各 个 抽样 杠 的 样本 基 za ，ns 和 权 数 WA 还 希 结 合 调查 费用 , 令 
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(11.14) 





计 候 倚 - 无 意 无 回答 可 以 看 成 是 随机 的 ,这 种 无 回答 虽然 会 造成 佑 计量 方差 增 大 ， 
但 通常 认为 不 会 带 来 估计 偏 做 。 

当然 ,如 果 无 回答 产生 于 某 个 群体 ,而 该 群体 与 其 他 群体 在 目标 变量 方面 存在 
数量 差异 ,那么 即便 是 无 意 无 问答 ,也 会 造成 估计 量 的 偏 倚 。 例 如 调查 居民 的 旅游 
开支 ,不 在 家 的 人 十 能 恰恰 是 经 常 外 出 旅游 的 。 虽 然 这 是 无 意 无 回答 ,但 却 会 造成 
有 偏 估计 。 


二 ,无 回答 产生 的 原因 及 影响 

如 果 把 采集 数据 的 过 程 划 分 为 查找 ,接触 和 采访 三 个 阶段 ,三 个 阶段 都 有 可 能 
出 现 无 回答 - 

1. 查找 阶段 。 调 查 人 员 无 法 找到 被 调查 者 ,主要 原因 有 地 址 不 详 、 被 调查 者 搬 
迁 、 被 调查 者 不 在 现场 ,调查 人 员 不 熟悉 地 址 等 。 

2 . 接触 阶段 。 被 调查 者 由 于 客观 原因 无 法 接受 调查 ,如 生病 或 没有 时 间 ; 被 调 
查 者 由 于 主观 原因 拒 访 ,如 对 调查 不 感 兴趣 ,出 于 安全 考虑 不 让 调查 员 人 户 等 。 

3. 采访 阶段 .调查 开始 后 被 调查 者 对 某 些 问题 不 愿 提供 答案 、 调 查 员 由 于 粗 
心 遗漏 某 些 项 目 、 由 于 某 种 原因 调查 中 断 等 。 

为 了 分 析 无 回答 的 影响 ,可 以 假设 总 体 由 两 个 层 组 成 。 一 个 是 “回答 层 ", 如 果 
这 个 层 的 单元 被 抽 中 ,就 可 以 得 到 回答 ; 另 一 个 是 “无 回答 层 ”, 采 用 相同 抽样 方式 ， 
如 果 这 个 层 的 单元 被 抽 中 ,就 无 法 得 到 回答 。 设 N,Ni, No 分 别 为 总 体 单元 数 、 回 
管 层 单元 数 ,无 回答 层 单元 数 。R1, Ro 分 别 为 兽 体 回答 率 和 无 回答 率 , 即 


N N 
N= N+NoRi= Ro= 人 (11.19) 


N 
则 总 体 均 值 Y= RY + RoYo 
从 总 体 中 抽取 容量 为 = 的 简单 随机 样本 ,n 来自 于 回答 层 , no 来 自 于 无 回答 
层 。 根 据 回答 单元 计算 出 的 样本 均值 为 31, 它 是 总 体 中 回答 层 均 值 的 无 偏 估 计 , 即 
E(31) = 了 1。 于 是 用 y 作为 总 体 真 值 了 的 估计 值 ,其 偏 傅 为 ; 
偏 集 (31) = E(51) -Y= Yi ~- (RIYU+Ro7o) = Ro( Yi - Yo) 
{11.20) 
相对 仿 集 (31) 人 
相同 的 方法 可 以 得 到 总 量 估 计 的 偏 倚 和 相对 偏 倚 分 别 为 : 
仿 倚 (70) = NEC31) - NY = NRo( ZI - Yo) (11.22) 
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(11.21) 


让 相对 偏 做 (1) = NRo( 让 0) _ 站 Yo) (11.23) 
这 表明 ,总 量 估计 的 绝对 偏 倚 等 于 均值 估计 的 绝对 偏 倚 乘 以 总 体 单位 数 N, 总 量 
合计 和 均值 估计 的 相对 偏 倚 相等 。 

由 模型 看 出 ,导致 无 回答 偏 侍 的 原因 主要 来 自 于 两 个 方面 :一 个 是 回 管 层 与 无 
回答 层 单位 之 间 的 数量 差异 (了 | - Yo) ;一 个 是 无 回答 率 Ro。 

上 述 模型 给 我 们 一 些 启示 :首先 ,如 果 Y! = Yo, 即 回答 单元 与 无 回答 单元 目 
标 安 量 的 数量 特征 没有 显著 差异 ,可 以 看 成 无 向 答 是 由 于 一 些 随机 因素 引起 的 ,这 
时 间 题 尚 不 严重 ,因为 不 会 引起 估计 偏 倚 ,但 是 ,由 于 无 回答 造成 实际 接受 调查 单 
元 数目 减少 ,会 引起 估计 方差 的 增 大 ,这 时 只 要 简单 地 增 大 样本 量 ,使 完成 调查 单 
元 数目 与 调查 方案 要 求 相 一 致 即 可 .其 次 ,如 果 了 | 关 ,仅仅 用 回答 数据 进行 舍 
计 就 会 产生 偏 倚 , 且 Yi 与 Yo 差异 越 大 ,估计 偏 倚 就 越 大 ,这 时 降低 无 回答 率 就 十 
分 重要 。 最 后 , 如果 无 法 最 终 消灭 无 回答 ,就 需要 采取 一 些 补救 措 施 , 通 过 对 调查 数 
据 的 调整 ,以 减 小 由 于 无 回答 对 估计 带 来 的 影响 。 








三 、 降 低 无 回答 的 措施 

解决 问题 的 最 好 方法 是 在 问题 发 生 之 前 采取 措施 加 以 预防 ,对 调查 中 的 无 回 
答 也 是 如 此 。 导 致 无 回答 的 原因 是 多 方面 的 ,如 果 调查 进行 前 对 可 能 产生 无 回答 的 
原因 加 以 认真 研究 ,并 有 针对 性 地 采取 预防 措施 ,就 会 有 效 地 提高 调查 中 的 回答 率 。 

可 以 采用 的 预防 措施 主要 有 : 

1. 问卷 设计 具有 吸引 力 ,容易 引起 被 调查 者 参与 的 兴趣 ,并 注意 适当 的 长 度 。 

2. 在 可 能 的 条 件 下 ,充分 利用 调查 组 织 者 的 权威 性 和 社会 影响 力 , 激 发 被 调 
查 者 的 参与 意识 。 

3. 确定 准确 的 调查 方位 ,使 调查 员 容 易 找 到 被 调查 者 。 

4. 采取 有 助 于 消除 被 调查 者 冷漠 .担心 或 怀疑 的 措施 ,如 预先 通知 .调查 前 的 
解释 说 明 及 雇用 与 被 调查 者 熟悉 的 人 做 调查 员 。 

5. 注意 调查 员 的 挑选 。 调 查 员 的 身份 与 被 调查 者 越 接近 ,就 越 容易 被 对 方 接 
受 。 实 践 表 明 ,大 学 生 、 居 民 委员 会 成 员 . 下 岗 职 工 都 是 理想 的 非 专职 调查 员 人 选 。 

6. 做 好 调查 员 的 培训 ,增强 调查 员 的 责任 心 , 提高 其 访谈 技巧 。 有 经 验 的 调查 
人 员 可 以 把 调查 中 的 无 同 答 率 降 到 最 低 程度 。 

7. 注意 调查 过 程 的 监控 。 对 不 成 功 的 调查 及 时 总 结 , 找 出 解决 问题 的 办 法 。 如 
碟 访 是 什么 原因 造成 的 ,调查 时 间 是 否 合适 。 要 让 一 个 球迷 在 一 场 精彩 的 球赛 转播 
时 接受 调查 ,其 难度 可 想 面 知 。 
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8. 奖励 措施 , 测 查 总 要 花费 被 调查 者 的 时 间 和 精力 ,适当 的 奖励 是 必要 的 ,如 
邮寄 调查 中 采用 拙 奖 ,人 户 润 查 中 向 被 调查 者 赠送 小 礼品 ,对 集体 单位 进行 调查 时 
许诺 提供 最 后 的 调查 报告 或 汇总 结果 ,等 等 ,一 些 人 接受 润 查 并 不 是 为 了 得 到 奖 
盛 , 但 奖励 措施 会 使 对 方 感到 他 们 提供 的 信息 是 多 么 重 贤 。 

9. 再 次 调查 ,再 次 调查 是 指 在 概率 抽样 的 第 一 轮 调查 完成 之 后 ,针对 无 回答 
产生 的 原因 ,采取 相应 的 措施 ,对 无 同 答 单元 进行 再次 的 调查 。 无 回答 产生 的 原因 
包括 : 

(1) 不 在 家 。 调 查 人 员 了 解 到 调查 对 象 何 时 在 家 ,再 次 登门 调查 。 

《2) 不 方便 。 调 查 时 被 调查 者 由 于 生病 .工作 忙 或 其 他 客观 原因 难以 接受 调 
查 , 调 查 人 员 可 以 约定 另外 的 时 间 , 在 对 方 方 便 的 时 候 进行 调查 。 

在 上 述 两 种 情况 下 ,再 次 调查 都 可 以 收 到 明显 效果 。 此 外 ,对 一 些 不 明 原因 的 
拒 访 ,可 以 改变 调查 方式 。 例 如, 对 于 邮寄 调查 的 无 回答 者 , 除 再 次 邮寄 调查 问卷 
外 ,可 以 用 电话 提醒 或 改 用 电话 调查 。 作 为 一 般 的 原则 ,应 该 对 被 调查 者 尝试 三 次 ， 
若 仍 不 成 功 , 才 可 将 其 放弃 。 

10. 将 换 被 调查 单元 ,对 于 放弃 的 无 同 答 者 ,需要 抽取 替换 单元 , 以便 使 接受 
调查 的 样本 单元 数 不 低 于 原 设计 要 求 。 桂 换 的 原则 应 该 事先 规定 ,例如 人 户 调查 中 
的 “右手 原则 ”, 即 用 放 痉 户 右边 的 第 一 户 作为 替代 单元 替代 原则 的 事先 规定 可 以 
防止 调查 员 自 作 主 张 ,也 便于 事后 检查 。 

影响 回答 率 的 一 大 障碍 是 调查 中 的 敏感 问题 ,所 以 调查 问卷 中 应 尽量 避免 敏 
感性 问题 .但 有 些 调查 本 身 就 是 针对 敏感 问题 的 ,由 此 提出 了 随机 化 回答 技术 。 随 
机 化 回答 技术 的 基本 特征 是 ,被 调查 者 对 所 调查 的 问题 采用 随机 同 答 的 方式 ,从 而 
对 自己 的 回答 起 到 匿名 的 作用 。 调 查 人 员 根 据 事先 设计 的 程序 ,可 以 对 目标 变量 进 
行 推算 。 针 对 不 同 的 自 标 变 量 , 有 不 同 的 随机 化 回答 模型 。 


























四 、 对 存在 无 回答 数据 的 调整 

调查 中 无 回答 的 情况 总 是 难以 避免 。 由 于 无 回答 造成 数据 不 全 , 如 果 不 加 处 
理 ,就 有 可 能 造成 估计 量 偏 傅 。 针 对 不 同 的 情况 ,可 以 考虑 采用 一 些 补救 措施 ,以 对 
无 回答 造成 的 佑 计量 偏 倚 起 到 纠偏 ,校正 的 作用 。 对 存在 无 回答 数据 进行 调整 的 方 
法 有 多 种 ,下 面 介绍 其 中 的 儿 种 。 

(一 ) 再 抽样 调整 

这 种 方法 是 指 在 第 一 次 无 回答 的 单元 中 随机 抽取 一 个 子 样本 ,通过 更 细致 更 
充分 的 工作 ,获得 该 子 样本 的 数据 ,作为 整个 无 回答 层 的 代表 值 。 然 后 把 第 一 次 调 
碍 中 回答 层 数 据 和 第 二 次 调查 中 无 回答 层 数 据 结合 起 来 ,对 总 体 的 有 关 人 参数 进行 
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估计 。 设 从 总 体 N 中 随机 抽取 个 样本 单元 ,第 一 次 调查 有 1 个 回答 单元 和 wo 个 
无 回答 单元 ,n = ni + no; 再 从 zxo 个 无 回答 单元 中 随机 抽取 一 个 容量 为 m 的 子 样 
本 进行 调查 。 令 页 和 5 分 别 代表 第 一 次 ni 个 单元 和 第 二 次 mm 个 单元 的 样本 均 
值 , 则 可 以 得 到 总 体 均值 Y 的 无 偏 估计 


Y= Tn + nm0) = wv + won (11.24) 





式 中 ,wl = a = 各 分 别 为 样本 中 回答 层 和 无 同 答 层 的 比例 。 

抽样 用 到 两 个 随 要 程 岸 ;一 次 是 从 N 个 单元 中 随机 抽 政 ai 个 单元 ; 另 一 个 是 
从 第 一 次 无 回答 的 no 个 单元 中 随机 抽取 mm 个 单元 ,根据 抽样 估计 原理 ,目标 安 量 
经 二 个 随机 程序 的 方差 是 ; 








V(Y) = ViEo(Y) + EVo(Y) (11.25) 
第 二 个 随机 程序 的 条 件 期 望 值 和 估计 量 方 差分 别 是 : 

Eo(Y) = Ln + mo 加 ) = 3 {11.26) 

Vo(Y) = 8 全 = i D3 = am LD (11.27) 


式 中 . 品 为 样本 无 同 答 层 的 方差 ;K 为 无 回答 层 抽 样 间距 , 即 & = 一 
将 式 (11.26)、 式 (11.27) 代入 式 (11.25) , 便 有 


VY) = V3) + Es [wo «Ls3] 
= life:+ wo (= (11.28) 


式 中 ,S? 为 总 体力 差 ; Si 为 总 体 中 无 回答 层 的 方差。 

上 式 等 号 右边 的 第 一 项 是 通常 情况 下 的 简单 随机 抽样 误差 计算 公式 ,第 二 项 
是 采用 再 抽样 后 方差 的 增加 部 分 。 可 以 看 出 , 当 无 回答 层 所 占 比 例 Wo 较 小 时 , 进 
行 再 抽样 所 增加 的 估计 量 方差 就 比较 小 ,特别 是 当 & = 1, 即 对 样本 中 所 有 的 无 回 
答 都 进行 再 次 调查 并 获得 回答 时 ,第 二 项 方差 部 分 为 零 ,这 时 的 估计 量 方差 就 等 同 
于 样本 量 为 * 的 简单 随机 抽样 。 对 无 回答 层 单元 进行 再 抽样 ,把 两 次 调查 的 数据 结 
会 起 来 ,可 以 得 到 目标 量 的 无 偏 估计 ,从 而 实现 了 对 缺失 数据 可 能 带 来 估计 偏 倚 进 
行 校正 的 目的 ,但 它 是 以 增 大 估计 量 方差 为 代价 的 。 

{二 ) 加 权 调 整 

对 存在 无 回答 数据 进行 补救 的 另 一 种 方法 是 采用 加 权 调 整 。 加 权 调 整 法 是 通 
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过 对 调查 中 所 获得 的 回答 数据 使 用 加 权 央 子 ,达到 对 数据 进行 调整 , 减 小 由 于 克 回 
等 造成 的 估计 偏 倚 , 作 为 说 明 , 设 从 总 体 N 中 随机 抽 皮 容量 为 半 的 样 木 , 估计 量 
Y= 六 Www 中 无 篇 的 ,这 里 W, 足 第 ; 个 样本 单 多 的 权 数 ; 若 令 x 为 第 ; 个 单元 的 
人 样 概 率 ,在 样 木 单元 全 部 回答 情况 下 , 权 数 W，= zi !, 它 反映 了 第 i 个 样本 单元 
在 估计 中 的 作用 . 叉 设 ,为 第 i 个 单元 的 回答 概率 ,P = 1 表示 一 定 回答 ,已 = 0 帮 
未 一 定 不 岂 答 ,现实 中 P, 足 一 个 随机 变量 ,被 调查 者 足 青 回答 取决 于 多 种 因素 。 设 
回答 概率 期 望 值 忆 (Pi Ar = 1)= 书 , 即 第 ;个 单元 被 选中 后 的 四 答 概率 为 已 .在 
调查 中 ,由 于 无 回答 的 存在 ,只 能 用 x 个 回答 单元 的 信息 对 总 体 参 数 进行 估计 ,内 


此 估计 此 Y = Wis 就 需要 修正 为 ”= > Wr? ,其 中 W? = (xiP;)-! 是 对 万 
回答 数据 进行 凋 整 的 权 数 。 从 这 个 意义 上 说 , 油 整 是 根据 调查 中 回答 单元 的 回答 机 
率 进行 的 - 

为 进行 调整 ,需要 掌握 样本 单元 的 回答 概率 。 由 于 P; 木 知 ,就 需要 对 P; 进行 
合理 的 估计 ,对 已 的 不 同 估计 就 形成 不 同 的 调整 方法 。 因 此 ,加 权 调整 法 是 一 个 令 
括 的 说 法 , 它 包 括 了 一 些 不 同 的 调整 方法 。 这 里 介绍 最 基本 的 加 权 组 调整 
(weighting class adjustmenl) 方法 。 

首先 ,将 容量 为 ”的 样本 划分 为 五 个 互 不 重合 的 子 集 ,把 这 些 子 集 称 为 调整 
组 ,用 下 标 有 表示 。 通 过 划分 使 得 组 内 名 单元 的 日 标 变量 Y; 值 尽 可 能 相近 ,并 假设 
组 内 所 有 单元 的 同 答 概率 相同 。 这 个 过 程 类 似 于 对 样本 进行 分 层 , 因 而 需要 足够 的 
进行 分 层 的 辅助 信息 。 

加 权 组 调整 中 使 用 的 P, 的 估计 量 , 是 组 内 经 过 加 权 的 回答 率 。 依 前 述 , 对 任何 
概率 样本 ,有 Wi = zx 六, 这 里 Wi; 是 第 组 中 第 i 个 样本 单元 的 未 经 调整 的 权 数 ， 
Pi; 的 估计 此 为 : 








DW, 
P= 这 (11.29) 
Sw, 
式 中 ,ni 为 第 h 组 中 的 样本 量 ;1 为 第 组 中 国 答 单元 的 个 数 ;Pj2 为 第 4 组 第 ; 
个 单元 回答 概 兴 的 估计 值 。 


于 是 经 过 加 权 纪 调整 的 权 数 为 : 
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《11.30) 





显然 ,如 果 没 有 无 回答 ,产品 = 上 ,调整 后 和 调整 前 的 权 数 没有 什么 区 别 。 如 果 
存在 光 回 答 ,P 售 < 1 ,由 WW 入 > Whos 它 表明 ,由 于 无 回答 单元 无 法 提供 信息 ,有 
关 无 辐 答 单元 的 信息 被 分 扒 到 回答 单元 的 身上 .还 可 以 看 出 ,如 果 采 用 等 概率 抽样 

四 


六 对 所 有 的 和 = 1,2，… 吾 部 威 立 , 则 PP = 宫 ，。 








设计 , 即 rw = 
令 An = 总 是 第 h 组 在 总 体 中 所 占 的 比重 , 则 Ax 的 估计 值 为 ; 
Dw, 
B= 了 {11.31 ) 
2 2 Ww 
Wi 
oY _ 
令 Y= 和 为 第 疡 组 中 回答 居 的 总 体 均值 , 则 Yiw 的 估计 值 为 : 
Ww 
Yi = OO (11.32 ) 
Ws 
帕 式 (11.30) 式 (11.31 式 (11.32), 可 以 得 到 总 体 均值 估计 为 
HA 
~ 2 2 Why 
A (11.33) 





二 起 、 ~ 
DY 


估计 量 下 标 mec 表示 加 权 组 调整 。 














{三 ) 相关 推 估 法 
相关 推 估 法 主要 用 于 调查 中 的 项 目 无 句 答 .项 目 无 同 答 指 被 调查 单元 不 是 完 
中 某 些 项 目的 调查 .这 时 其 他 回答 项 目的 信息 尚 可 以 利 





全 拒绝 调查 ,而 是 控 绝 其 

用 ,利用 这 些 信息 ,对 无 回答 的 数据 进行 推 估 。 基 本 思路 是 ,寻找 与 无 馈 答 问题 变量 

有 关联 的 其 他 测 查 问题 变量 ,利用 调查 数据 建立 起 变 明之 间 的 回归 方程 ,对 项 目 无 
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回答 的 变量 值 进行 推 估 . 例 如 ,如 果 我 们 认为 居住 面积 (当然 ,还 可 能 有 其 他 项 目 ， 
如 职业 、 职 位 ,拥有 高 档 耐 用 品种 类 和 数 呈 等 ) 与 收入 有 关 , 被 调查 者 的 居住 面积 
是 可 知 的 ,就 可 以 建立 起 收入 与 居住 面积 的 回归 方程 ,如 果 方 程 拟 合 效果 好 ,就 可 
以 对 收入 项 的 无 回答 进行 推 熙 现场 调查 中 ,除了 无 回答 以 外 ,还 会 有 一 些 其 他 原 
凡 造 成 缺失 数据 ,如 遗 油 、 玉 失 , 或 在 数据 审核 小 将 明显 的 不 全 逻辑 的 数据 删除 等 。 
对 缺失 数据 进行 推 佑 ,除了 回归 法 以 外 ,也 还 有 其 他 许多 方法 -例如 , 某 企业 利润 数 
明显 不 实 ,将 其 副 除 ,在 同 次 调查 中 得 到 的 其 他 有 关 数 据 如 表 11.3 所 未 。 














表 11.3 相关 推 估 法 示例 
并 同行 业 同 规模 
村 日 某 企业 其 他 企业 平均 信 
销售 基 ( 箱 ) 1 000 304 
利润 (万 元 ) 一 15 
由 于 利润 与 销售 量 有 很 尚 的 相关 上 度 , 用 该 行业 柑 同 规模 的 其 他 企业 的 调查 结 


果 可 以 扒 估 某 企业 的 利润 约 为 21.4 万 元 (15 x 区 = 21.43 w 21.4)。 


(四 ) 插 补 调整 
“ 插 补 ”一 闻 译 自 于 imputation, 该 词 又 有 估计 ,推算 .替代 等 多 种 译 法 。 其 基本 
意思 是 ,在 数据 整理 阶段 .利用 调查 结果 ,采用 一 定 的 方式 ,为 无 回答 的 缺失 值 确定 
:个 合理 的 估计 值 , 插 补 到 诛 缺 失 数据 的 位 置 上 。 插 补 可 以 达到 了 呐 个 调整 日 的 : -- 
是 减 小 由 于 无 回答 可 能 造成 的 估计 量 偏 倚 ,为 此 ,就 要 使 确定 的 替补 值 尽 可 能 地 接 
近 缺 失 的 原 数 据 值 .事实 上 缺失 数据 的 真 值 人 们 无 法 得 知 , 因 此 所 追求 的 只 能 是 确 
定 替补 值 方法 的 合理 ,有效 -调整 的 第 二 个 目的 是 力图 构造 一 个 完整 的 数据 集 - 在 
调整 蚁 ,由 于 无 四 答 的 存在 ,使 原 数 据 集 上 出 现 许多 “ 窒 隆 ” ,给 一 些 统计 分 析 方 法 
的 使 用 带 来 不 便 , 采 用 插 补 的 方式 填补 了 缺失 值 的 空缺 ,就 为 后 而 分 析 人 员 的 工作 
提供 了 方便 ,他 们 在 使 用 你 准 统计 软件 的 同时 ,不必 烦琐 地 说 明 对 缺失 值 进行 处 理 
的 方法 ,大 大 节省 了 精力 和 时 间 。 而 且 不 加 分 析 入 员 使 用 的 是 同一 各 经 过 插 补 调整 
的 数据 ,也 保证 了 分 析 结果 的 一 致 性 - 播 补 的 效率 如 何 ,取决 于 替补 值 与 缺失 值 的 
近似 程度 ,为 了 提高 效率 ,对 人 研究 总 体 进 行 分 层 , 使 层 内 各 单元 诸 方 面 情 况 尽 可 能 
相似 , 利 几 同一 层 内 回答 单元 的 信息 产生 出 缺失 数据 的 丛 补 值 是 进行 插 补 的 基本 
思路 。 因 为 可 以 利用 不 同 的 信息 源 ,采用 不 同 的 方式 生成 替补 值 ,所 以 有 不 同 的 插 
补 方法 。 
实际 中 使 用 较 多 的 足 均 值 搬 补 ,其 方法 为 :首先 根据 辅助 信息 将 样本 分 为 若干 
组 ,使 组 内 各 单元 的 主要 特征 相似 然后 分 别 计算 各 组 日 标 变 基 Y 的 均值 ,将 各 组 
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均值 作为 组 内 所 有 缺失 项 的 替补 值 。 均 值 插 补 法 的 特点 是 操作 简便 ,并 且 对 均值 和 
总 其 这 样 的 单 变 基 参数 可 以 丰 效 地 降低 其 点 估计 的 侦 倚 。 但 它 的 弱点 也 比较 突出 ， 
首先 是 插 补 的 结 桌 焉 曲 了 样本 单元 中 Y 变量 的 分 布 ,因为 癌 组 中 无 回答 的 蔡 补 值 
都 由 该 组 的 平均 值守 当 , 使 得 其 分 布 状 况 受 到 巾 各 组 同 答 单元 数据 计算 出 的 组 均 
值 的 制约 ;其 次 , 揪 补 结果 将 导致 在 均值 和 总 量 估计 中 对 方差 的 低估 , 办 为 同一 组 
内 样本 单元 的 离 盖 将 由 于 同一 个 数值 的 多 次 出 现 而 偏 低 , 因 此 均值 插 补 适用 的 场 
合 是 仅仅 进行 简单 的 点 估计 ,而 不 适用 于 需要 方差 估计 等 比较 复杂 的 分 析 。 

为 避免 均值 插 补 中 替补 值 过 于 凝集 的 弱点 ,可 以 使 用 随机 括 补 .这 种 方法 是 些 
采用 某 种 概率 抽样 的 方式 ,从 回答 单元 的 资料 中 抽 肥 无 回答 的 替补 值 。 为 便于 说 
明 , 令 某 项 月 回答 数据 个 数 为 nt, 无 回答 个 数 为 mn, 则 = = mi + no, 现 从 wi 个 数 
据 中 随机 抽取 no 个 蔡 补 值 , 则 样本 构成 为 : 

样本 = yyy yr 


此 时 ,目标 变量 的 均值 估计 为 ; 






































y= L(+ no7') (11.34) 
HH 
式 中 ,3* = 2 (11.35) 
气 


如 果 采 用 不 重复 抽样 ,于 = 0 或 1; 如 打 采 用 重复 抽样 , 则 玉 为 多 项 式 分 配 , 若 


Rd+ +hl = nn, 则 





(二 


PIH = (RhanD) 一 hath (11.36) 
否则 上 面 所 定义 的 概率 为 零 ,由 此 得 出 
E(H)=¥ 5 (11.37) 
YL 
va) = (xn)(1- 去 ) (11.38) 
Co HH) = ii (11.39) 
1 
若 假 设 ; 与 7 独立 ,由 上 面 结果 可 以 导出 
E(5)=Y (11.40) 
Var(5) = (二 - 广 js， (去 )(1- 轨 )s (11.41) 


式 中 ,S? 为 总 体 方差 。 
可 以 看 出 ,随机 播 补 法 估计 量 * 的 方差 由 丙 部 分 组 成 ,等 式 右边 第 一 项 是 仅 用 
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(二 ) 被 调查 痢 误差 

在 计量 误 次 中 ,被 调查 者 误差 是 最 重要 的 一 种 ,这 是 指 被 询 查 者 在 调查 过 程 中 
没有 给 出 真实 的 回答 .当然 这 里 不 包括 前 面 提 到 的 由 于 对 问题 不 理解 等 原因 造成 
的 误差 。 可 以 把 被 调查 者 误差 划分 为 两 类 :无 意识 误差 和 有 意识 误差 ,无 意识 误差 
的 主要 表现 是 回忆 误差 , 指 对 调查 内 容 记忆 不 清 而 回答 失 息 ,无 意识 误差 还 包括 
“倾向 性 数字 ”心理 学 研究 表明 ,人 们 在 回答 数字 问题 时 ,常常 会 下 意识 地 给 出 一 
些 倾 癌 性 数字 :如 调查 吸 烟 任 每 天 的 吸烟 基 , 回答 往往 是 一 包 、 半 包 或 10 支 ;调查 
人 们 每 天 看 电视 的 时 间 , 回 答 经 常 是 半 个 小 时 .1 个 小 时 等 ,尽管 真实 的 数值 并 非 
如 此 ,被 调 食 者 有 意识 的 同 答 谋 差 则 多 是 由 于 问题 的 敏感 或 其 他 因素 使 回答 具有 
基 种 侦 向 性 ,如 回答 学 历 .职务 职称 时 ,往往 有 高 报 倾向 ,而 对 另 一 些 调查 内 容 ,由 
于 利益 驱使 往往 低 报 。 无 意识 误差 可 以 看 做 是 随机 的 ,不 会 带 来 估计 偏 倚 , 有 意识 
误 益 则 不 然 ,由 于 它 存 在 倾向 性 ,所 以 会 导致 严重 的 估计 偏 倚 - 一 般 而 言 ,这 种 误差 
的 倾向 性 根据 经 验 和 实际 情况 的 分 析 足 可 以 察觉 的 。 

{ 三 ) 调查 者 误差 

这 是 指 由 于 调查 员 的 原因 击 引 起 的 误差 ,有 些 是 由 于 洞 查 员工 作 不 认真 ,如 记 
录 错 误 等 造成 的 ,有 些 则 是 调查 员 在 调查 过 程 中 ,将 自己 的 思想 .观点 看 法 .感受 
等 与 被 调查 者 交流 ,对 被 调 伪 者 的 回答 起 了 “诱导 ” 作用。 

{四 ) 其 他 误差 

计量 误差 的 产生 还 有 其 他 一 些 来 源 .这 里 列举 一 些 。 

1 . 测量 工具 。 在 需要 利用 测量 工具 进行 的 调查 中 (如 农 产 量 抽样 调查 的 采样 
框 和 磅 秤 ,学 生 视力 淹 查 中 与 测量 表 的 距离 和 光线 等 ) ,如果 测量 工具 不 准 , 就 会 对 
测量 结果 带 来 偏 误 。 即 便 测 量 工 具 是 精确 的 ,反复 测量 也 会 产生 随机 误差 。 

2. 编码 -编码 的 作用 是 把 数据 变 为 可 机 污 的 形式 。 编 但 错误 不 仅仅 指 具 体 的 
编写 错误 ,也 包括 对 编码 结果 的 理解 上 -特别 是 对 于 调查 中 开放 性 问题 的 编码 , 同 
样 的 内 容 , 出 于 理解 不 同 ,不 同 编码 员 的 编码 结果 可 能 不 同 。 

3. 录 人 -要 求 数据 录入 过 程 中 不 发 生 任 何 错误 是 很 难 做 到 的 ,只 能 采取 一 些 
措施 ,把 录 人 错误 降 到 最 低 限度 ,如 使 用 双 机 录入 等 

综 上 所 述 ,计量 误差 内 容 繁 杂 , 它 对 于 油 查 数据 质量 的 影响 足 不 可 忽视 的 。 






































二 ,计量 误差 模型 

国内 外 已 有 大 量 的 文献 对 计量 误差 模型 展开 讨论 ,这 里 仅 对 计量 误差 最 基本 
的 模型 做 些 分 析 , 使 该 省 对 此 右 所 了 解 。 

在 理论 上 可 以 假设 对 第 ， 个 单元 进行 多 次 重复 性 测 查 并 做 计量 , 令 








yte (11.42) 
式 中 ,上 为 第 i 个 单元 真 值 ;ev 为 第 ; 个 单元 第 上 次 计量 中 的 误差 。 

关于 A 的 内 涵 需 要 做 些 说 明 。 有 些 情 况 下 pi; 是 具体 存在 的 一 个 确定 值 。 例 如 ， 
在 一 定时 点 下 人 的 身高 ,体重 , 某 职员 上 个 月 的 收入 ,等 等 有 些 情况 下 ,yi 又 是 抽 
象 模糊 的 ,很 难 定义 其 真 值 。 例 如 采用 量 表 方式 对 人 们 的 态度 ,看 法 ,情感 等 抽象 内 
容 的 调查 ,其 计 重 结果 与 当时 的 环境 ,气氛 及 被 调查 者 心情 关系 很 大 ,尽管 如 此 , 进 
行 分 析 时 这 个 概念 仍 是 不 可 缺少 的 。 

在 对 同一 个 单元 进行 重复 计量 情况 下 ,ex 将 遵从 一 个 概率 分 布 。 通 常 假定 是 
正 态 分 布 , 并 令 

Elen) = B; (11.43) 

式 中 ,B; 为 计量 中 的 偏 倚 ,6 如果 B, = 0, 说 明 虽 有 计量 误差 ,但 它 是 随机 的 ,其 期 望 
值 为 零 ;反之 , 若 B, 关 0, 则 表明 对 i 单元 的 计量 中 存在 系统 性 偏 倚 。 

对 于 特定 的 i 单元 , 偏 倚 B; 是 个 常量 ,但 对 于 不 同 的 i, B; 可 能 不 同 ,车 

















E(B)=B (11.44) 
则 称 B 为 所 有 单元 的 常数 偏 街 。 
不 妨 令 
du = er—B, (11.45) 


式 中 ,di 为 对 每 个 单元 i 在 第 : 次 计量 时 的 误差 波动 部 分 。 显 然 ,di 与 ex 有 相同 的 
分 布 ,其 期 望 值 E( da\ i) = 0 因此 , 式 (11.42) 又 可 用 





有 = {11.46) 
表明 单元 i 的 具体 观测 结果 , 它 受 其 均值 计量 系统 偏 倚 及 计量 随机 误差 几 个 因素 
的 影响 。 

进一步 令 

pi = Tw (11.47) 
是 对 单元 ; 进行 :次 计 重 后 的 平均 ,也 即 

He = Ey \i)= pt B: (11.48) 
则 

dr = yr pi (11.49) 


如 前 所 述 ,di, 是 计量 过 程 中 的 随机 误差 , 它 所 表现 的 是 实际 测量 值 y 与 包括 
偏 倚 在 内 的 测量 均值 y', 之 间 的 差异 。 
由 式 (11.49) , 存 
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y= td 
= dt pA) tp ~ pi) (11.50) 
式 中 ， 
| 
A = NZ (11.5D) 


是 yx 在 总 体 中 的 均值 。 
在 调查 中 ,抽取 容量 为 a 的 样本 , 令 


= LB (11.52) 
对 样本 加 以 平均 , 则 可 以 将 式 (11.50) 写 为 : 
-=d+(a -uu)+(u a) (11.53) 


式 中 ,为 真 值 ; 的 均值 ,由 此 得 到 均 方 误差 的 公式 : 
MSE(3.) = V(d) + V(R’) + (u’ - R)? + 2c0v(d,, a’) 《11.54) 

等 式 右边 的 第 一 项 为 计量 随机 误差 ,第 二 项 为 抽样 方差 ,第 三 项 为 计量 仿 倚 的 
平方 ,最 后 一 项 为 协 方差 , 虫 于 有 E(dy\ i) = 0, 故 此 项 通常 为 零 。 

式 (11.54) 说 明了 以 下 几 个 问题 : 

第 ,如 果 计 量 中 存在 偏 倚 , 结 果 会 使 佑 计量 产生 偏 倚 。 但 依据 样本 资料 无 法 
计算 偏 倚 , 因 为 真 值 亏 未 知 。 对 计量 过 程 中 的 偏 倚 识别 ,需要 利用 其 他 有 关 资 料 ,在 
某 种 程度 上 更 需要 调研 人 员 的 经 验 以 及 对 调查 对 象 的 了 解 。 在 可 能 条 件 下 ,通过 努 
力 ,在 小 范围 内 获取 被 凋 查 单元 真 值 ,借以 对 偏 倚 进 行 推算 。 

第 二 , 偏 倚 虽 然 可 以 影响 估计 景 ,但 不 会 影响 方差 估计 。 因 为 如 果 每 个 w 中 都 
包含 偏 倚 , 其 均值 7 中 也 包含 偏 倚 , 在 计算 2)(y: ~ 7)2 过 程 中 , 偏 倚 部 分 相互 抵 
消 。 




















第 三 ,假如 不 存在 常数 偏 倚 , 且 样 本 中 计量 误差 ds 互 不 相关 , 便 会 有 
V5)= Vd) + Va') 
= la + Ls? (11.55) 

即使 采用 全 面 调查 ， 了 = 1, 等 式 右边 后 一 项 的 抽样 方差 不 再 存在 ,但 计量 方差 
仍 是 存在 的 ,在 抽样 调查 中 ,由 于 计量 方差 的 存在 ,会 使 总 的 方差 增 大 ,所 以 一 般 的 
抽样 误差 计算 公式 往往 低估 了 实际 中 的 误差 状况 。 

第 四 , 若 计 量 误差 d; 之 间 存在 相关 ,如 在 同一 个 地 点 接受 视力 检测 的 人 员 受 
到 相同 检测 条 件 的 影响 ; 阁 十 名 在 同一 区 域 进行 调查 的 工作 人 员 ,接受 的 是 同一 位 
指挥 者 的 技术 培训 ,计量 误差 之 间 的 相关 就 是 可 能 的 -这 时 
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Vd) = Ladll + (n ~ Dou] (11.56) 
式 中 ,pu. 为 样本 内 相关 系数 。 即 使 ou 很 小 ,对 V(d,) 也 会 产生 极 大 影响 .例如 ,如 
时 上 =0.1a = 100, 则 1+(100- 1)0.1 = 10.9, 即 V(d,) 为 原来 的 10.9 倍 。 
这 说 明 调查 实施 中 工作 人 员 的 规范 操作 是 多 么 重要 。 

第 五 ,将 计量 方 其 V(d,) ,抽样 方 上 YL ), 偏 倚 平 六 (uw -wu)* = 下 用 另 一 
种 方式 表示 , 则 南方 误 养 公式 又 可 写 为 : 
MSE(y ) = Lls? + ol Dai+ 下 (11.57) 


可 以 看 出 , 随 样 本 晶 ， 的 增 大 ,抽样 广 益 二 S3 会 越 来 越 小 ,但 储 侍 平方 7 与 
无关; 在 pw 到 0 条 件 下 ,(n -1)pu 反 而 会 增 大 ,也 就 是 说 ,在 大 样本 调查 中 ,有 与 
Au 所 带 来 的 影响 成 为 均 方 误差 中 的 主要 部 分 ,抽样 方差 在 总 误差 中 反而 显得 不 太 
重要 。 清 醒 地 认识 这 一 点 有 助 于 我 们 认识 调查 过 程 中 质量 控制 的 重要 性 。 





三 ,减少 计量 误差 的 措施 

计量 误差 涉及 的 内 容 广泛 ,减少 计 世 误差 需要 对 调查 全 过 程 进 行 质量 控制 。 

{一 ) 调查 设计 方面 

调查 设计 的 质量 与 设计 人 员 的 能 力 密切 相关 。 有 能 力 的 设计 人 员 能 够 设计 出 
更 好 的 调 伍 问卷 和 抽样 程序 ,以 减少 由 于 设计 不 周 所 可 能 带 来 的 计量 误差 ,调查 问 
卷 没 计 出 来 后 ,应 组 织 有 关 人 员 对 问卷 进行 讨论 ,如果 是 大 规模 的 调查 活动 ,还 应 
在 正式 调查 之 前 进行 预 调查 ,在 实践 中 对 间 卷 进行 检验 ,调查 设计 是 整个 调查 活动 
的 起 点 ,其 专业 技术 性 较 强 ,对 人 员 素质 和 技能 的 要 求 很 高 ,一 旦 设计 出 现 问题 , 损 
失 往往 是 难以 补救 的 ,如果 设计 人 员 具 有 丰富 的 专业 知识 ,又 了 解 实际 情况 ,由 调 
查 设计 所 引起 的 浊 差 是 可 以 得 到 有 效 预 防 的 。 

{ 二 ) 现场 准备 方面 

在 收集 数据 之 前 , 需 鉴 做 许多 准备 上 作 , 这 些 工 作 质 基 的 好 坏 , 对 计量 误差 会 
产 牛 直接 影响 。 主 要 的 准备 工作 包括 招聘 访问 员 、 对 访问 员 培训 、 编 写 调 查 手册 。 

1. 招聘 调查 员 。 每 一 个 调查 机 爸 ,通常 都 会 有 一 份 访问 员 名 单 ,名 单 上 记载 的 
是 经 过 培训 的 访问 员 ,包括 固定 员工 和 以 前 调查 所 雇用 过 的 访问 员 。 调 查 机 构 可 以 
根据 这 份 和 名单 , 挡 聘 调查 所 需 的 访问 员 。 但 是 如 果 调查 需要 大 量 访问 员 ,就 需要 招 
聘 新 的 访问 员 。 在 任何 情况 下 ,调查 所 需要 访问 员 的 条 件 都 应 该 明确 。 招 聘 访 问 员 
时 ,其 文化 程度 .沟通 能 力 ,语言 能 力 ,组织 能 力 和 思想 素质 都 是 应 考虑 的 重要 因 
泰 .如果 进行 大 范围 的 电话 调查 ,由 于 区 域 跨度 大 ,招聘 访问 员 时 还 应 考虑 用 不 同 
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地 区 方 当 进 行 交流 的 问题 。 

2. 培训 访问 员 。 实 践 证 明 ,访问 呐 的 培训 对 调查 数据 质量 起 着 近乎 决定 性 的 
影响 。 培 训 内 容 通 常 有 调查 内 容 的 培训 (熟悉 调查 问卷 和 调 食 工 作 程序 ) 利 调 在 技 
能 的 培训 (如 何 处 理 调 丰 过程 小 遇 到 的 疑难 问题 ), 培 训 方 式 有 课堂 讲授 ,模拟 面 访 
和 实习 面 访 等 。 在 培训 过 程 中 ,能 奇 充分 调动 访问 员 的 工作 热情 ,帮助 访 癌 员 符 忌 
克服 各 种 困难 的 坚定 信念 和 决心 . 尼 衡 基 培 训 成 功 与 否 的 一 个 重要 标志 ， 

3. 编写 调查 手册 -调查 于 册 是 访问 员 进 行 工作 的 指南 。 好 的 调查 手册 有 助 于 
访问 员 更 有 效 地 开展 工作 :调查 于 册 的 内 容 通常 包括 :调查 内 容 ( 调 查 问卷 ) 的 说 
则 ,问卷 的 审核 规则 ,作业 管理 (如 怎样 报告 调查 进程 ,怎样 分 发 和 回收 问卷 ,调查 
所 需 的 设备 和 材料 等 ) 的 规定 ,以 及 访问 技巧 和 技术 的 介绍 - 

{ 三 ) 调查 结果 审核 方面 

审核 是 对 调查 质量 进行 控制 的 一 道 工序 ,也 是 减少 计量 误差 的 有 效 方法 .审核 
的 目的 是 要 保证 调查 所 得 到 数据 的 完整 性 .一致 性 和 有 效 性 ,审核 工作 贯穿 于 整个 
调查 过 程 。 

审核 有 三 种 类 型 , 即 有 效 性 审核 .一致 性 审核 和 数据 分 布 审核 有效 性 审核 是 
检查 调查 数据 是 否 有 效 ,包括 是 否 在 需 燃 填写 数字 的 地 方 十 上 了 非 数字 字符 ,编码 
数据 是 否 在 允许 值 之 内 等 一 致 性 审核 主要 检查 不 同 问题 之 癌 的 关系 是 否 正确 , 它 
可 以 基于 不 同 问题 或 同一 问题 的 不 同 部 分 之 间 的 结构 关系 、 逻 辑 关 系 来 进行 - 例 
如 ,出 生年 月 和 婚姻 状况 ,对 于 22 周岁 以 下 的 男性 公民 或 20 周岁 以 下 的 女性 公 
民 , 婚 姻 状 况 除 了 “未 婚 " 之 外 ,不 可 能 有 别 的 选择 ;又 如 ,如 果 问 题 A 回答 “ 否 ”, 问 
题 B 就 不 用 回答 ;等 等 ,数据 分 布 审 核 通过 拟 和 数据 的 分 布 ,确认 异常 记录 .然后 采 
取 相 应 的 处 理 方法 (如 重新 核实 或 剔除 )。 

审核 可 以 在 调查 过 程 中 的 任何 阶段 进行 。 

1. 收集 数据 时 进行 审核 .收集 数据 时 可 以 做 现场 市 核 .访问 员 在 调查 进行 过 
程 中 根据 常识 或 经 验 ,可 以 判断 出 一 些 问题 的 答案 是 否 属于 “可 接受 " 范围 .在 调 
查 结束 后 ,立即 审核 所 做 的 记录 ,由 于 刚才 的 信息 还 记忆 犹 新 ,很 容易 找到 被 调 但 
者 并 查 明确 切 情况 ,因此 ,有 机 会 发 现 并 纠 工 错 误 。 

2. 数据 收集 完毕 后 的 审核 ,通常 ,比较 全 而 、 比 较 复杂 的 审核 是 在 数据 收集 完 
毕 后 进行 的 。 可 以 把 审核 视 为 一 个 独 闻 的 工作 环节 .审核 工作 可 以 由 了 解 情况 .经 
验 下 窗 的 专门 审核 人 员 进 行 ,也 可 以 由 计算 机 的 审核 程序 米 执行 ,计算 机 硬件 和 软 
件 的 发 展 使 得 进行 自动 化 审核 越 来 越 成 为 可 能 .在 这 个 阶段 ,虽然 也 进行 数据 有 效 
性 的 审核 ,但 侧重 点 是 数 据 的 -- 致 性 审核 和 离 群 值 的 检测 。 





























他 (11.58) 
如 果 cf; 研 出 了 预先 确定 的 偏离 值 , 堵 么 洲 观 测 值 就 被 认为 是 离 群 值 。 
男 外 , 疮 群 值 也 可 以 通过 下 面 的 血 信 区 间 进 行 确 认 : 
(mts + te) (11.59) 
式 中 ,和 z 分 别 为 根据 预先 确定 的 冯 信 和 虚 得 到 的 标准 止 态 分 布下 限 和 上 限 的 值 。 
如 果 总 体 是 偏 态 的 .5 利 4 就 此 用 不 等 的 值 , 洲 在 这 个 区 间 之 外 的 观测 值 被 认为 是 
房 群 值 ，， 
样 丰 均值 和 样本 方差 是 用 来 测度 数据 集中 趋势 和 岗 散 趋势 最 常用 的 统计 中。 
但 由 于 它们 对 离 群 值 比较 敏感 ,因此 选 搓 它 们 就 不 太 合适 -例如 ,如 果 数 据 呈 偏 态 
分 布 ,样本 均值 就 会 偏向 离 群 值 ,样本 方差 也 会 由 于 离 群 值 而 放大 。 因 此 ,有 些 离 群 
值 的 4 值 就 会 显 答 相 当 小 ,确认 这 些 离 群 值 就 较为 因 难 ,这 种 现象 称 为 屏蔽 效应 - 
因此 ,最 流行 的 检测 方法 之 一 是 使 用 上 四 分 位 数 法 :这 种 方法 用 中 位 数 测度 数据 
的 集中 趋势 ,四 分 位 域 测度 数据 的 离散 舱 度 , 因为 这 些 统计 量 对 离 群 值 不 大 敏感 
(中 位 数 和 四 分 位 数 是 用 加权 的 样本 数据 计算 出 来 的 ); 四 分 位 数 把 数据 分 成 四 个 
部 分 :25% 的 数据 小 于 第 一 个 四 分 位 数 g.3;,50% 的 数据 小 于 第 二 个 四 分 位 数 (或 
中 位 数 )q.s,75% 的 数据 小 于 第 三 个 四 分 位 数 g.75。 
上 .下 四 分 位 域 h, 和 ,定义 如 下 : 











hi gs gs (11.60) 

5 《 昌 .61) 
置信 区 问 为 : 

《9.5 一 t+ ts) {11.62) 


其 中 ,六 和 # 可 以 通过 检查 以 前 的 数据 或 基于 过 点 的 经 验 来 确定 。 任 何 落 到 这 
个 区 亲 之 外 的 观测 值 都 被 认为 是 一 个 离 群 值 。 
关于 离 群 值 检测 方法 的 详细 内 容 , 请 参见 Bamett and Lewis (1995)。 


三 、 离 群 值 的 处 理 

对 于 在 调查 过 程 中 发 现 的 离 群 值 ,可 以 用 几 种 方法 来 处 理 。 如 果 在 调查 进行 中 
发 现 敲 样 值 , 就 坚 及 时 处 理 ,例如 进行 回访 核实 ,对 错误 进行 更 正如 果 在 调查 完毕 
后 的 审核 中 发 现 离 群 值 ,回访 核实 已 不 可 能 ,通常 对 离 群 值 采用 插 补 处 理 ,即将 离 
群 值 剔 除 , 然 后 使 用 插 补 法 调整 ,有 些 情况 下 ,如 果 认为 离 群 值 无 大 碍 ,也 可 以 对 离 
群 值 不 做 任何 处 理 , 这 时 , 主观 判 断 就 非常 重要 ,因为 忽略 或 纠 止 离 群 值 对 数据 的 
质量 有 较 大 影响 
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对 在 审核 时 没有 进行 处 埋 的 离 群 值 可 以 在 估计 的 时 候 处 理 。 钨 略 未 处 理 的 离 
样 值 会 影响 估计 的 效 娄 ,使 估计 结果 产生 偏 做, 并 导致 估计 盟 的 方差 增 大 ,处 理 的 
日 的 就 是 要 在 不 引入 较 大 偏 倚 的 前 提 下 ,减少 离 样 值 对 估计 盟 抽 样 误差 的 影响 。 

佑 计时 有 -= 种 方法 可 以 处 理 离 群 值 :(1) 改变 数值 ; (2) 调整 权重 ; (3) 进行 稳 
健 估 让 (robusr estimation)、 

如 果 离 帮 个 的 出 现 是 由 某 些 变量 的 航 值 导 敏 的 ,应 该 用 改变 数值 或 进行 稳健 
个 计 的 方法 处 理 ; 如 果 窗 群 值 的 权重 很 大 , 即 影响 大 的 离 群 值 , 则 应 该 考虑 修改 其 
权重 .并 出 种 客观 的 估计 方法 来 减 经 它 的 影响 。 

(一 ) 改变 数值 

处 理 离 寿 值 的 一 种 方法 足 缩 居 化 -这 种 方法 首先 要 将 样本 数据 按 从 大 到 小 依 
次 排序 ,然后 再 按 下 面 的 步骤 计算 、 

在 简单 随机 抽样 中 ,总 体 总 量 Y 的 万 偏 估计 公式 为 : 

?= FE 

式 中 ,i 为 样本 中 第 i 个 单元 ;s 为 所 有 样本 单元 的 集合 (假定 回答 率 为 100% )。 

类 似 地 ,对 于 缩 尾 化 ,假设 w(i = 1,2,…,n) 是 一 系列 有 序 样本 数据 ,来 自 大 
小 为 N 的 一 个 总 体 ,样本 量 为 。 若 样本 数据 中 第 个 最 大 值 各 被 认为 是 离 群 值 ， 
单 侧 次 缩 尾 估计 其 就 可 以 通过 几 第 ” - & 个 最 大 的 值 w_* 代替 这 些 离 群 值 来 定 
义 , 邑 








四 
gw = 六 (> 二 RD) (11.63) 
i 
党 要 提 及 , 缩 尾 化 适合 于 处 理 单个 变量 的 情况 ,因此 它 在 多 变量 的 抽样 调查 中 
很 少 应 用 。 
{二 ) 调整 权重 


处 理 离 群 值 的 另 一 种 方法 是 降低 离 群 值 的 权重 , 从 而 使 它们 的 影响 变 小 。 例 
各, 帕 予 离 群 值 的 权重 为 1, 即 离 群 值 仪 仅 代 表 它 自己 而 不 代表 其 他 总 体 单元 ,但 
这 样 做 对 估计 的 影响 很 大 ,特别 是 对 偏 态 总 休 的 估计 结果 通常 为 低估 。 例 如, 如果 
柴 行业 中 两 个 大 公司 的 零售 额 占 总 行业 零售 额 的 大 部 分 ,其 中 一 个 公司 被 选 入 
伴 本 ,其 权 数 为 2, 因 为 它 代表 两 个 规模 类 似 的 单元 。 但 如 果 这 个 公司 的 零售 额 被 
确定 为 离 群 值 ,并 改变 其 估计 权 数 ,就 会 产 重 低估 整个 行业 的 总 零售 额 。 目 前 ,专家 
们 已 经 烛 出 了 一 些 能 够 降低 离 群 值 权重 的 估计 量 ,参见 Rao (1970) ，Hidiroglou 
and Srinath (1981)。 

{三 } 选取 稳健 佑 计量 

经 典 的 估 订 理论 中 ,总 体 参 数 的 估计 量 基于 其 种 分 布 的 假设 。 通 常 ,假定 估计 


14 











蝇 服 从 正 态 分 布 ,样本 均值 和 样本 方差 估计 量 在 正 态 分 布 的 假设 下 也 是 最 理想 的 。 
但 是 ,这 些 估 计量 对 高 群 值 非常 丝 感 ,您 健 估计 量 则 能 克服 这 种 局 限 性 ,办 为 它 对 
分 布 的 假设 不 太 敏感 .比如 ,中 位 数 比 均值 更 稳定 ;四 分 位 域 比 通常 的 方差 估计 其 
去 几 年 中 ,已经 提出 了 很 多 稳健 (robust) 入 计生 , 

+ 稳健 仙 计 量 和 离 群 值 检测 的 详细 讲解 ,请 参见 Barnett and Lewis (1995)， 
Rousseeuw and Leroy (1987)，Lee ct tl. (1992), 以 及 Lec(1995)。 






音 对 非 手 样 误差 的 产 和 持 来 源 和 处 理 方法 进行 了 -一 般 性 的 讨论 。 非 抽样 误差 
是 影响 统计 调查 数据 质量 的 重要 方面 ,在 很 多 情况 下 , 非 抽样 误差 已 经 超过 甚至 大 
大 越过 抽样 误差 ,对 此 应 引起 重视 并 加 以 认真 研究 .本 章 分 别 对 抽样 框 误差 ,无 加 
答 误 差 ,计量 误 益 做 了 讨论 ,提出 了 处 理 这 些 误差 的 一 些 方法 .本 章 还 对 调查 数据 
中 离 群 值 的 检测 和 处 理 方法 进行 了 讨论 -4 意 的 是 ,不 论 对 于 哪 一 种 类 型 的 非 
抽样 误差 ,都 有 若 士 种 处 理 方法 ,但 任何 一 种 方法 都 有 它 的 使 用 条 件 和 局 限 性 。 所 

















以 应 用 中 需要 具体 情况 具体 分 析 , 简 单 燥 搬 往 入 难以 收 到 理想 的 效果 。 
习 题 


1. 有 一 本 几 年 前 某 地 区 居民 住址 的 名 录 , 上 面 有 各 条 街道 中 居民 住户 的 地 址 
和 户主 姓名 。 现 在 想 对 该 地 区 的 居民 进行 一 次 入 户 抽样 调查 .这 本 名 录 抽 样 框 有 什 
么 缺点 ?你 打算 怎样 补救 ? 

2. 欲 对 市 场 中 的 个 体 商 版 进行 抽样 调 但 ,人 有 两 个 手 样 框 可 供 使 用 ,一 个 是 个 
体 南 贩 在 工商 局 注册 的 名 录 框 ,一 个 是 市 场 摊 位 的 地 址 框 ,这 贞 个 抽样 框 各 有 什么 
特点 ?你 打算 使 用 哪个 抽样 框 ?请 说 明 你 的 理由 。 

3, 请 就 下 面 问题 进行 讨论 : 

(1) 调查 中 的 无 回答 是 怎样 产生 的 ? 

(2) 你 认为 各 种 类 型 的 无 回答 对 估计 会 产生 什么 影响 ?请 举 几 个 例子 说 明 你 
的 观点 ， 

(3) 对 你 所 列举 的 无 回答 有 没有 比较 好 的 预防 措施 ?如 果 古 ,请 就 这 些 模 施 的 
操作 性 进行 讨论 。 
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《4) 如 果 出 现 了 上述 无 回答 ,采用 什么 措施 进行 补救 效果 较 好 ? 

4. 假定 在 现场 调查 中 ,由 于 采用 深 人 程度 不 同 的 调查 方法 .可 以 得 到 不 同 的 
回答 率 ,这 些 回答 率 分 别 是 60% ,80% ,90% 和 95% 。 对 于 一 个 待 估 的 百分比 ,各 回 
答 层 真实 均值 如 下 表 : 














按 回 答 率 (%) 分 大 真 值 (%) 
的 40.7 
80 i 43.5 
90 44.8 
95 45.4 
5% 无 回答 居 | 59.0 
请 回答 下 列 问题 ; 


(1) 采用 最 简单 的 调查 手段 只 得 到 60% 的 回答 率 ,在 这 种 情况 下 , 证 明 对 整 


个 总 体 百 分 比 估计 的 均 方 误差 的 根 毗 ,二 44 + 28.94, 其 中 是 回答 者 的 数目 。 

(2) 证 明 当 采用 一 个 只 能 得 到 60% 回答 率 的 方法 时 , 均 方 误差 的 根 无 法 达到 
5% ,除非 回答 者 稍微 超过 100 人 ,或 者 回答 率 在 80% 以 上 。 

(3) 如 果 均 方 误差 的 根 规定 为 2% ,采用 什么 方法 可 以 达到 这 个 目的 ?需要 多 
大 的 样本 量 ? 

5. 在 上 题 (3) 中 ,假定 采用 能 得 到 90% 回答 率 的 调查 方法 ,完成 每 份 问卷 的 
费用 要 上 升 到 $ 5。 如 果 从 其 余 10% 无 回答 中 青 得 到 一 半 ( 即 总 体 5% ) 的 回答 , 则 
每 完成 一 份 问卷 的 费用 为 $20。 对 于 一 个 2% 的 均 方 误差 的 根 ,采用 90% 回答 率 
的 方法 省 钱 还 是 采用 95% 回答 率 的 方法 省 钱 ? 
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第 12 童 
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美 


设计 与 方法 一 一 美国 CPS 案例 


国人 口 现 状 调查 (current population survey,CPS) 被 认为 是 全 国 性 大 规模 居 











民 住户 


抽样 调查 的 典范 。 此 项 调查 已 有 60 多 年 的 历史 ,但 时 至 今日 ,每 年 仍 有 大 量 





的 论文 讨论 CPS, 这 足以 说 明 这 项 调查 在 人 们 心目 中 的 地 位 ,以 及 人 们 对 事物 完美 


的 追求 。 
的 概述 ， 


作为 教材 的 一 个 案例 ,这 里 简要 介绍 CPS 的 一 些 主要 内 容 。 第 一 节 是 CPS 
第 二 节 介 绍 CPS 的 抽样 设计 ,第 三 节 介 绍 CPS 的 目标 量 估计 ,第 四 节 介 绍 











CPS 的 方差 估计 ,第 五 节 介 绍 CPS 的 非 抽样 误差 及 控制 。 


$12.1 概 述 


一 ,背景 

美国 人 口 现状 调查 (CPS) 是 国际 上 最 著名 的 抽样 调查 项 目 之 一 ,之 所 以 著名 ， 
一 方面 是 因为 其 调查 的 内 容 多 ,调查 对 象 分 布 的 范围 广 , 调 查实 施 的 难度 大 ; 务 … 
方面 在 于 该 项 目 科 学 精巧 的 设计 和 系统 有 序 的 操作 管理 。 此 项 目 调查 不 仅 为 政府 
有 关 部 门 ,社会 科学 家 和 各 界 人 士 提 供 了 美国 劳动 力 市 场 的 全 面 信息 ,而 且 成 为 美 












































国 以 及 许多 其 他 国家 进行 居民 调查 的 参考 异型 。 
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” CPS 由 美国 联邦 普查 局 (U.S. Census Bureau) 和 美国 劳工 统计 局 (U.S. Bureau 
of Labor Slatistics) 联合 组 织 , 它 的 核心 数据 是 劳动 力 市 场 的 信息 ,提供 包括 失业 
率 、 就 业 状 况 、 行 业 收入 等 许多 领域 的 数据 。CPS 还 收集 了 大 量 人 口 数据 ,这 有 助 于 
进一步 了 解 按 种 族 、 年 龄 .性别 等 分 类 的 全 美国 各州 以 及 州 内 不 同 地 区 、 不 同人 口 
体 私 动 力 市 场 的 状况 ,CPS 由 联邦 普查 局 负责 执行 ,使 用 的 样本 是 经 过 科学 方法 
挑选 的 5 万 多 户 居民 。 调 但 实施 在 钵 个 月 包含 19 号 的 那 一 周 进 行 ,调查 的 问题 涉 
及 受 访 者 前 一 周 ( 即 包含 12 号 的 那 一 周 ) 的 活动 -调查 范围 覆盖 全 美 50 个 州 和 付 
七 亚 地 区 。 每 位 受 访 者 连续 4 个 月 接受 访问 ,然后 退出 样本 ,8 个 月 后 再 进入 样 
,连续 4 个 月 接受 访问 ,最 后 永久 地 退出 样本 ,这 种 4 一 8 一 4 的 样本 轮换 设计 保 
了 数据 在 月 份 之 问 .年度 之 间 具 有 较 高 的 相关 性 和 可 比 人 性 ,可 以 反映 样本 的 时 序 
化 ,又 不 断 补 充 了 新 样本 ,避免 了 样本 老化 带 来 的 诸多 负 作 用 ， 

CPS 受 访 者 必须 是 16 局 岁 以 上 { 含 16 阅 岁 ) 的 美国 居民 ,因为 16 周岁 以 下 人 
口 的 就 业 受 到 义务 教育 和 儿童 劳动 法 的 限制 ,所 以 劳工 统计 局 只 出 版 16 周岁 以 上 
(会 16 周 岁 ) 人 口 的 劳动 力 资 料 。 年 龄 没有 上 限 , 同 等 对 竺 全 日 制 学 生 与 人 学 后 。 通 
常 家 庭 中 的 一 个 成 员 代表 家 中 所 有 成 员 接受 调查 ,如 果 受 访 者 对 家 庭 其 他 成 员 就 
业 情 况 不 了 解 ,调查 员 就 必须 与 其 他 成 员 直接 取得 联系 。 

除了 常规 性 的 右 关 劳 动力 人 口 情况 调查 之 外 ,通常 CPS 中 还 包括 一 些 劳动 力 
市 场 的 分 析 家 们 感 兴趣 的 问题 ,如 兼职 活动 与 收入 服役 状况 、 受 教育 状况 暂时 性 
的 就 业 、 工 种 更 换 、 工 作 期 以 及 其 他 一 些 内 容 , 由 于 CPS 样本 量 大 人口 覆 盖 而 广 ， 
因此 许多 赞助 商 利用 该 调查 搜集 些 其 他 数据 ,如 对 家 庭 大 小 的 期 望 吸 烟 状况 、 
计算 机 使 用 状况 以 及 选举 投票 情况 等 ,这 些 调查 内 容 以 附加 问题 的 方式 插入 到 不 
同月 份 的 调查 中 。 

CPS 的 调 伪 问 卷 是 一 份 完全 的 电子 版 文件 ,数据 采集 方式 有 面 访 和 电话 调查 
两 种 .联邦 普查 局 在 马里 兰州 的 黑 格 斯 顿 (Hagerstown Maryland) 、 印 第 安 纳 州 的 
朱 斐 还 维 尔 (Jeffersonville Indiana) 和 亚利桑那 州 的 图 森 (Tucson Arizona) 建 有 三 
套数 据 收集 系统 中 心 ,主要 负责 进行 计算 机 辅助 电话 调查 , 面 访 调查 则 由 访问 员 在 
便携 式 电脑 上 实施 。 

CPS 始 于 1940 年 ,这 中 间 也 经 历 了 一 些 变 化 。 
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二 、CPS 历史 沿革 
美国 国民 失业 状况 如 何 ,是 美国 政府 和 经 济 学 家 们 十 分 关注 的 问题 之 一 。 在 
20 世纪 30 年 代 经 济 大 危机 期 间 ,测定 失业 率 的 问题 变 得 更 为 突出 。 美 国 曾 尝试 用 
许多 方法 估计 失业 率 , 这 中 间 述 包含 了 相当 成 分 的 猜测 ,1937 年 ,有 关 部 门 首次 尝 
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试 使 用 概率 抽样 的 方法 估计 失业 率 。 项 目 管理 部 门 先是 在 地 区 范围 ,然后 在 全 国 范 
国 研 究 并 发 展 了 测定 失业 率 的 技巧 ,这 些 研究 为 1940 年 的 失业 样 木 调查 英 定 了 基 
础 ,从 1940 年 起 ,失业 样本 调查 成 为 项 目 管理 部 门 每 月 一 次 的 工作 ,可 以 认为 这 是 
CPS 的 开始 .下 面 以 10 年 为 一 个 阶段 ,介绍 CPS 发 展 过 程 。 

(一 )1940 一 1950 年 大 事 记 

1942 年 8 月。 联邦 普查 局 接手 失业 样本 调查 的 工作 。 

1943 年 10 月 。 联 邦 普 查 局 对 样本 进行 了 全 面 改动 ,改动 后 的 住户 样本 来 自 68 
个 切 级 抽样 单元 ,被 盖 了 125 个 县 和 市 .到 1945 年 , 约 有 25 000 个 住户 进 人 样本 。 

1945 年 7 月 .对 CPS 的 问卷 进行 了 修改 ,增加 了 4 个 就 业 状 况 的 基本 问题 ,对 
一 些 调查 项 日 重新 定义 。 

1947 年 8 月 。 对 样本 抽 选 方法 做 了 修改 ,实现 了 在 地 区 样本 中 每 个 单位 人 选 样 
本 的 概率 相等 ,从 而 简化 了 制 表 与 估计 过 程 。 

1949 年 7 月 。 进 一 步 扩 大 了 样本 涵盖 范围 ,包括 饭店 汽车 旅馆 、 拖 车 移动 房 
等 ,因为 这 些 住所 居民 的 特点 与 其 他 人 口 不 太一 样 ,这 些 改变 提高 了 数据 质量 。 

(二 )1950 一 1960 年 大 事 记 

1953 年 1 月 。 对 目标 变量 采用 比率 估计 的 方法 ,比率 估计 的 辅助 变量 为 1950 
年 的 人 口 普查 数据 .新 的 估计 方法 的 使 用 进一步 提高 了 估计 效率 。 

1953 年 9 月 。 高 速 电子 设备 引 人 数 据 处 理 和 制 表 过 程 ,这 不 仅 大 大 提高 了 估计 
的 速度 ,同时 带 来 估计 方面 的 改进 ,电子 设备 的 采用 还 扩大 了 抽样 变异 系数 计算 的 
范围 .1959 年 ,CPS 采 用 现代 计算 机 ,从 此 联邦 普查 局 就 不 断根 据 计 算 机 的 发 展 对 
调查 的 计算 机 环境 进行 同步 更 新 。 

1954 年 2 月 。 初 级 抽样 单元 的 个 数 由 68 个 扩大 到 达 230 个 ,而 样本 住户 25 000 
个 的 数量 保持 不 变 。 问 时 调查 的 估计 过 程 也 有 所 改进 ,复合 估计 利用 月 份 之 间 调 查 
样本 的 重合 优势 ,在 没有 增加 样本 量 的 情况 下 , 提高 了 绝 大 部 分 主要 数据 的 可 靠 
人 性。 
























































1956 年 5 月 ,初级 抽样 单元 的 个 数 由 230 个 扩张 到 330 个 ,样本 覆盖 了 638 个 
县 和 市 ,样本 量 也 出 原先 的 25 000 个 住户 增加 到 40 000 个 件 户 。 据 测算 ,样本 量 的 
扩大 使 主要 数据 的 可 靠 性 提高 了 大 约 20% ,并 获取 了 更 详尽 的 数据 。 

1957 后 ] 月 -对 就 业 状 态 的 定义 进行 了 重新 的 修正 。 按 照 新 的 定义 ,原先 一 些 
属于 就 业 的 人 群 被 归 入 了 失业 人 群 。 

1957 年 6 月 -调查 加 入 了 季节 性 调整 ,在 随后 年 度 内 联邦 普查 局 和 劳工 统计 局 
进行 的 调查 中 出 现 了 方法 上 的 极 大 发 展 。 

1959 年 7 月。CPS 的 任务 在 不 同 机 构 之 间 进 行 划分 。 计 划 、 分 析 及 出 版 CPS 劳 

279 














动力 数据 的 任务 由 劳工 统计 局 承担 ,数据 采集 、 计 算 机 数据 加 工 ,样本 维护 以 及 相 
关 方 法 的 研究 任务 由 联邦 普查 局 承担 。 

{三 }1960 一 1970 年 大 事 记 

1960 华 上 月 -阿拉 斯 加 利和 夏威夷 进 和 人 CPS 样本 ,这 使 得 初级 抽样 单元 由 原先 的 
330 个 增加 到 333 个 。 这 两 个 州 的 加 和 人 增加 了 新 数据 与 旧 数据 进行 比较 的 难度 。 

1961 年 10 月 .采用 了 计算 机 输入 用 胶片 光学 扫描 装置 (FOSDIC) ,CPS 的 调查 
问卷 变 成 了 1960 年 人 t1 普 查 采 用 的 FOSDIC 格式 -利用 这 个 系统 可 以 对 调查 结果 
直接 打 找 , 并 将 信息 传输 到 计算 机 中 储存 ,这 个 系统 可 以 使 问卷 的 编排 更 加 灵活 、 
包容 更 多 的 问题 ,这 个 系统 一 自 延 由 到 1993 年 12 月 。 

1963 年 3 月 。 对 比率 估计 中 使 用 的 样本 与 人 口 数据 进行 了 调整 ,从 而 反映 了 
1960 年 以 来 人 口 数量 与 人 5 分 布 的 变化 。 根 据 人 口 分 布 变化 ,初级 抽样 单元 进 - 
步 增 加 到 357 个 ,给 人 口 增长 迅速 的 地 区 以 更 充分 的 覆盖 率 。 虽 然 调整 后 的 总 样本 
量 不 变 ,但 使 大 多 数 数据 的 可 靠 性 提高 了 5%。 

1967 年 1 月 。 将 原来 的 357 个 初级 样本 进一步 扩大 到 449 个 。 样 本 量 由 原来 的 
40 000 个 住户 增加 到 60 000 个 。 这 次 样本 量 的 扩大 使 主要 数据 的 可 靠 性 提高 了 约 
20% ,同时 对 就 业 与 失业 的 概念 进行 了 重新 修订 ,修订 包括 对 劳动 力 年 龄 的 改动 ， 
增加 了 有 关 工 作 时 数 、 失 业 时 间 及 个 体 经 营 状况 等 问题 ,失业 定义 的 修订 使 时 序 变 
化 的 估计 产生 了 一 些 波动 。 

(四 )1970 一 1980 年 大 事 记 

1973 年 3 月 。 为 了 优化 样本 ,初级 抽样 单元 由 449 个 进一步 提高 到 461 个 ,但 样 
木 量 却 由 原来 的 60 000 个 减少 到 58 000 个 ,这 种 改变 在 于 ,最 终 件 户 群 中 包含 的 住 
户 个 数 从 6 个 相近 (但 不 相 邻 ) 变 成 4 个 相 邻 的 住户 。 

1975 年 9 月 。 采 用 了 州 追加 样本 。 追 加 样本 包含 165 个 新 的 初级 抽样 单元 约 
14 000 个 住户 ,用 以 补充 26 个 州 和 哥伦比亚 地 区 的 国家 样本 。 追 加 样本 的 自 的 是 
满足 各 州 年 平均 失业 人 数 估计 的 可 靠 性 要 求 .1976 年 8 月 ,重新 改进 了 估计 过 程 ， 
并 重新 修订 了 可 靠 性 变 求 ,这 样 使 三 个 州 的 追加 样本 退出 。 最 后 , 追加 样本 包括 
155 个 初级 抽样 单元 中 的 1t 000 个 住户 。 

1979 年 1 月 。 采 用 了 新 的 丙 阶 段 比 率 估计 程序 对 家 庭 成 员 间 关 系 、 种 族 等 方 
面 的 数据 采集 方式 也 进行 了 润 整 ,例如 ,家 庭 成 员 的 种 族 由 受 访 省 而 不 是 访问 员 决 

{五 )1980 一 1990 年 大 事 记 

1981 个 5 月 ,1980 一 1981 年 闻 ,对 样本 量 勾 陆续 做 过 一 些 测 整 .到 1981 年 5 
月 ,初级 抽样 单元 的 总 数 达 到 629 个 ,样本 总 量 为 72 000 个 住户 。 
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1982 年 11 月 。 增 加 了 有 关 工 会 的 调查 问题 。 

1984 年 9 月 。 开 始 收 集 女 性 服役 情 次 的 数据 。 

1984 年 10 月 -针对 16 岁 ~ 24 岁 的 人 口 增加 了 人 学 情况 的 问题 。 

1985 年 6 月 -马里 兰州 的 黑 格 斯 顿 开通 了 计算 机 辅助 电话 调查 系统 (computer 
sssistant telephone interview,CATI) -在 接 下 来 的 几 年 中 对 该 系统 进行 了 测试 。 

1987 年 4 月 :CDPS 首次 在 月 度 估 计 中 使 用 通过 CATI 系统 中 心得 到 的 数据 ( 亚 
利 桑 部 州 的 CATI 系统 中 心 建 于 1992 年 5 月 ,印第安 纳 州 的 CATI 系统 中 心 建 于 
1994 全 9 月 ). 

{六}1990 年 以 后 的 大 事 记 

1990 年 6 月 ,一 系列 首次 进行 的 新 的 劳动 力 问卷 测试 在 黑 格 斯 顿 CATI 系统 
中 心 展开 。1990 与 1991 年 进行 的 这 些 测试 使 用 了 随机 拨号 技术 。 

1992 年 7 月 .CATI 与 CAPI( 计 算 机 辅助 面 访 调查 , 即 访问 员 携带 笔记 本 电脑 
实施 调查 ) 综合 试验 开始 进行 。 

1994 第 上 月 ,CPS 开始 采用 一 套 全 新 的 专 为 计算 机 辅助 访问 设计 的 问卷 。 

1994 年 12 月。 对 与 受 访 者 一 起 居 作 但 非 正式 家 庭 成 员 的 这 种 关系 进行 了 新 的 
分 类 , 涉 太 未 结婚 的 同居 伙伴 室友 及 住 客 等 。 

1996 华 1 月。 对 CPS 的 抽样 设计 进行 了 一 些 改 动 ,原来 的 可 靠 性 竖 求 放松 了 。 
修改 后 的 抽样 方案 中 要 求 有 754 个 初级 抽样 单元 ,而 样本 总 量 减少 到 50 000 个 住 
户 。 








综 上 所 述 , 白 1940 年 CPS 并 始 正 式 实施 , 半 个 多 世纪 以 来 其 改进 ,充实 、 完 善 
的 工作 一 直 没 有 间断 ,不 断 追 求 .不 断 发 展 的 线索 清晰 可 见 。 概 括 起 来 ,可 以 归纳 为 
以 下 岂 个 方面 。 

1. 调查 内 容 不 断 完 善 ,CPS 对 主要 日 慰 变量 的 定义 进行 过 若干 次 修改 ,使 得 
新 定义 能 及 时 反映 不 断 变化 的 经 济 环境 ,并 保证 更 好 的 可 操作 性 。 调 查 的 内 容 也 随 
着 时 代 的 要 求 不 断 丰 富 , 形 成 比较 科学 的 指标 体系 。 

2. 抽样 设计 的 效率 不 断 提高 .CPS 抽样 设计 演变 的 总 趋势 是 , 在 多 阶段 抽样 
中 ,初级 抽样 单元 的 数目 在 不 断 增加 ,而 最 终 样 本 量 ( 作 户 ) 的 数目 却 保持 不 变 ,其 
至 减少 。 根 据 抽样 原理 ,在 多 阶段 抽样 中 ,第 一 阶段 的 样本 方差 在 总 抽样 误差 中 占 
有 重要 地 位 CPS 抽样 设计 的 不 断 改 进 , 印 让 了 抽样 理论 的 指导 作用 。 一 阶 样本 的 
合理 分 布 ,以 对 初级 抽样 单元 的 分 层 为 依据 。 所 以 在 多 阶段 抽样 中 ,对 初级 抽样 单 
元 的 精细 分 层 是 非常 重要 的 。 

3. 估计 方法 精益 求 精 。CPS 在 估计 方法 上 也 是 精益 求 精 。 如 该 调查 所 采用 的 
二 阶段 比率 估计 、 复 合 估计 方差 估计 等 都 是 众多 专家 .学 者 集体 智慧 的 结晶 ,美国 
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收 府 对 这 方面 的 研究 给 气 了 很 大 的 财力 资助 ,许多 论文 也 是 以 CPS 中 的 问题 作为 
讨论 的 背景。 

4, 采用 高 科技 的 设备 与 技术 。CPS 总 十 以 最 快 的 速度 把 最 新 的 高 科技 装备 和 
技术 应 用 于 调查 活动 的 实践 中 ,如 对 光学 扫描 装置 FDSDIC 的 使 用 ,CATI 系统 中 
心 的 建立 以 及 CATI 利 CAEI 的 结合 运用 .在 如 此 大 规模 的 全 国 性 调查 中 率先 引入 
先进 设备 与 技术 ,是 CPS 的 一 个 亮点 。 

5. 重视 调查 结果 的 评估 .。 在 调查 方案 经 过 较 大 调整 ,修订 后 ,者 有 很 详细 的 质 
直 、 徐 吕 评 估 , 以 使 对 改进 所 带 来 的 收益 有 一 个 清楚 的 认识 .这 项 工作 对 于 总 结 经 
验 . 积 察 素材 也是 非常 重 贤 的 。 


$ 12.2 ”CPS 抽样 设计 


一 、 概述 

50 多 年 以 来 ,CPS 一 直 是 美国 劳动 力 与 人 口 特征 方面 最 新 信息 的 主要 来 源 。 
因为 CPS 的 重要 性 与 高 层次 性 ,对 它 的 可 靠 性 评估 定期 进行 。 伴 随 美国 10 年 一 次 
的 人 口 普 查 ,CPS 抽样 设计 也 是 10 年 修订 一 次 ,修订 通常 在 两 次 人 口 普查 中 间 。 新 
的 抽样 设计 尽 可 能 多 地 利用 人 口 普查 提供 的 信息 ,同时 兼顾 到 两 次 普查 之 间 人 口 
状况 的 变化 最 近 一 次 的 抽样 设计 于 1995 年 7 月 完成 ,由 于 经 痪 下 调 ,1996 年 1 月 
CPS 抽样 设计 又 经 过 一 次 调整 ,但 主要 是 对 某 些 州 样 本 量 的 调整 ,抽样 设计 的 思想 
与 方法 没有 改变 ,本 和 节 所 介绍 的 内 容 , 肥 自 1995 年 7 月 的 抽样 设计 。 

CPS 抽样 设计 具有 以 下 几 个 主要 特征 : 

1. CPS 样 本 是 随机 样本 。 

2. 调查 的 核心 内 容 是 16 周岁 及 16 周岁 以 上 家 庭 入 口 的 劳动 力 特征 。 

3. 扫 样 时 以 州 为 总 体 ,因而 设计 也 是 以 州 为 总 体 的 设计 。 事 实 上 ,各 州 的 抽样 
方案 都 是 统一 的 ,区 别 在 于 各 州 对 核心 变量 估计 精度 的 要 求 不 同 ,因而 样本 量 不 
同 - 劳 工 统计 局 和 联邦 普查 局 负责 总 的 计划 与 协调 ,并 根据 各 州 调查 结果 对 全 国 数 
据 进行 推 估 。 

4. 样本 量 由 变异 系数 CV 及 可 靠 性 要 求 所 决定 。 安 异 系数 是 衡量 抽样 误差 的 
一 个 相对 数 , 它 等 于 估计 晤 标准 差 除 以 变量 的 期 望 值 -就 全 国 而 言 ,通常 假定 失业 
率 的 期 望 值 为 6% ,变异 系数 要 求 为 1.8% ,在 显著 性 水 平 a = 0.1 条 件 下 ,对 全 
失业 率 估计 的 误差 范围 在 + 0.2% 之 间 。 

5. 在 失业 率 为 6% 的 自 定义 下 ,各 州 对 变异 系数 的 要 求 在 8% ~ 9% 之 间 , 这 
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样 就 能 保证 进行 全 国 估计 的 变异 系数 控制 在 1.8% 之 内 。 





CPS 地 样 的 主体 部 分 是 采用 二 阶段 抽样 .就 全 国 范围 而 言 ,第 一 阶段 采用 分 层 





PPS 抽 样 ,抽出 754 个 初级 抽样 单元 (PSU) ,第 二 阶段 采用 整 群 系统 抽样 抽出 最 终 
包括 56 000 个 住户 的 样本 ,有 时. 当 实际 产生 的 最 终 样本 单位 过 大 ,就 需要 第 三 阶 
段 的 抽样 ,抽样 设计 保证 在 州 内 绝 大 多 数 住户 明 终 被 选 入 样 本 的 概率 是 相同 的 ， 


但 











是 由 于 设计 是 以 州 为 单位 的 ,所 以 不 同 州 的 住户 最 终 被 抽 中 的 概率 是 有 区 别 的 。 


当然 ,如 果 只 考虑 国家 水 平 的 数据 ,更 有 效 的 设计 方案 或 许 应 该 使 全 国 所 有 作 户 被 
抽 中 的 概率 相同 ,但 部 样 就 无 法 保证 州 水 平 与 国家 水 平 数据 的 可 靠 性 间 时 得 到 演 


所 














足 。 央 此 , 电 前 的 这 种 设计 兼顾 了 国家 和 州 两 级 的 需 归 。 


二 、 第 一 阶段 的 抽样 
第 一 阶段 的 抽样 涉及 三 个 方面 的 工作 ,这些 工作 足 : 初 级 抽样 单元 (PSU) 的 








界定 ;将 初级 抽样 单元 PSU 分 层 ;PSU 的 抽 选 。 


{一 )PSU 的 界定 
PSU 是 不 跨 州 界 的 .组 成 PSU 的 基本 行政 区 划 是 县 ,但 也 不 是 绝对 的 。 初 级 抽 


样 单元 PSU 或 者 是 一 个 县 ,或 者 起 相 邻 的 两 个 或 多 个 县 。 在 城市 ,PSU 按照 城市 统 


则 
以 


泽 


[区 域 (metropolitan statistical area, MSA) 界定 。 对 每 个 PSU 的 要 求 是 ,面积 不 超 
过 3 000 平方 英里 (相当 于 7 770 平 方 千 米 ), 人 口 在 7 500 入 以 上 ,如果 面 积 与 人 口 
数 发 生 冲 罕 ,例如 在 人 口 稀少 的 地 区 ,3 000 平方 英里 的 范围 内 人 口 低 于 7 500 入 ， 








在 PSU 界定 时 面积 共有 优先 权 。 这 主要 是 保证 每 个 PSU 的 地 理 范围 不 能 过 大 ， 
保证 访问 员 的 实际 操作 。 美 国 的 PSU 规 则 产生 于 20 世纪 40 年 代 末 期 ,后 来 对 规 
不 断 调 整 上 述 所 言 为 1990 年 PSU 规 则 的 主要 内 容 。 根 据 上 述 要 求 ,目前 美国 的 
141 个 行政 县 共 划 分 为 2 007 个 初级 抽样 单元 PSU。 
{二 ) 对 PSU 的 分 层 

对 PSU 进行 分 层 的 主要 标准 有 两 个 ,一 个 是 在 同一 屋内 ,各 PSU 具有 很 大 的 























性 
市 
为 


必 选 的 初级 单元 。 


本 


问 特 征 ; 另 一 个 是 各 层 的 规模 接近 , 即 每 一 层 中 的 人 口 数 接近 .有 些 PSU( 如 城 
) ,人 口 密度 大 , 则 这 些 PSCG 被 归 人 必 选 的 初级 单元 .这 样 就 把 2 007 个 PSU 划分 
两 类 ， 

第 一 类 :县 有 自 代 表 性 质 的 PSU(self-representing), 共 432 个 ,这 432 个 PSU 是 





第 二 类 ; 非 白 代表 性 质 的 PSU(non-self-representing) , 共 1 575 个 * 这 中 间 的 样 
单 匹 是 通过 随机 抽 选 产生 的 。 
将 1 575 个 非 白 代表 性 质 的 PSU 按 地 理 位 置 ( 州 内 ) ,人 口 统计 学 特征 和 人 数 
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规模 分 为 360 个 层 ,平均 每 层 中 约 有 4 ~ 5 个 PSU。 
{ 三 )PSU 的 抽 选 
每 个 共有 自 代表 性 质 的 PSU 自然 进 和 样本。 这样, 在 第 一 阶段 的 初级 抽样 单 
元 中 ,共有 432 个 自 代表 的 PSU. 在 其 他 360 个 层 中 ,采用 与 人 口 规模 成 比例 的 概 
率 抽样 ,从 每 个 层 中 抽取 -个 PSUC. 于 昆 ,一 阶段 抽样 中 共 抽取 出 792 个 (1996 年 又 
减少 到 754 个 ) 初级 抽样 单元 。 








三 、 第 二 阶段 的 抽样 

CPS 基本 上 是 采用 二 阶段 的 抽样 , 故 第 二 阶段 抽样 实际 上 是 抽取 最 终 抽样 单 
元 (USL)- 抽 选 时 采用 整 群 抽样 方法 ,每 个 USU 由 4 个 住户 住址 所 组 成 ,大 多 数 情 
沉 下 ,这 些 住户 ( 即 住 房 的 地 址 ) 都 是 独立 的 家 庭 单位 。 然 而 , 随 着 时 间 的 变迁 ,一 
些 房 合 可 能 被 拆 绩 或 者 被 转 为 其 他 非 居住 用 ;有 的 住户 地 址 可 能 由 几 个 家 庭 所 分 
用 .这 些 住户 地 址 仍然 是 抽样 单位 ,但 这 些 情 况 会 使 … 个 群 的 大 小 发 生 一 些微 小 的 
变化 ,通常 ,4 个 相 邻 的 住户 地 址 组 成 一 个 群 ,有 时 这 些 住户 地 址 也 会 比较 分 散 , 但 
与 其 他 住户 地 址 相 比 ,构成 一 群 的 4 个 住户 地 址 应 当 是 最 为 邻近 的 。 这 样 做 的 好 处 
是 便于 实施 调查 ,节省 调查 费用 ;其 弱点 是 ,由 于 相 邻 的 住户 可 能 具有 较 多 的 相似 
性 ,因而 会 增 大 抽样 误差 。 

在 美国 ,将 生活 区 域 分 为 两 大 类 :一 类 为 居住 单位 或 住户 ,一 个 住户 是 指 有 一 
套房 间或 一 个 单独 房间 作为 一 个 独立 的 生活 区 ,他们 与 其 他 生活 区 通过 如 公寓 楼 
的 大 厅 和 走廊 发 生 关系 。 在 一 个 住户 中 居住 的 或 者 是 一 个 人 ,或 者 是 一 个 家 庭 (这 
是 绝 大 多 数 情况 ) ,或 者 是 两 个 或 两 个 以 上 没有 家 庭 关系 的 人 。 在 1990 年 的 人 口 普 
查 中 ,有 大 约 98% 的 人 口 居住 在 这 样 的 住户 中 。 另 一 类 是 集体 户 。 集 体 户 是 指 庆 件 
者 共同 亭 用 公共 设施 或 得 到 统一 的 照顾 , 例如 学 校 宿舍 .养老 院 .福利 社 等 。 在 
1990 年 的 人 口 普查 中 ,有 大 约 2% 的 人 口 居住 在 集体 户 中 。 

二 阶段 抽样 时 ,使 用 的 抽样 框 主要 有 三 个 : (1) 集体 户 抽样 框 ; (2) 住户 抽样 
框 ;(3) 区 域 抽样 框 o 下 面 简要 介绍 三 个 抽样 框 的 构造 。 

一 ) 集体 户 抽样 框 

在 抽样 设计 中 ,每 个 USU 只 包括 4 个 住户 (家 庭 ) 单位 ,所 以 首先 要 将 集体 户 
人 口 转化 为 住户 抽样 单位 。 转 化 方式 为 ,用 集体 户 总 体 人 口 除 以 2.63(1990 年 人 口 
普查 时 每 个 住户 的 平均 人 口 为 2.63 人 ) ,然后 将 转化 的 4 个 住户 单位 组 成 一 群 。 
二 ) 住户 抽样 框 

住户 抽样 框 由 有 完整 地 址 的 住户 单位 所 构成 ,典型 的 完整 地 址 有 街道 名 称 和 
门牌 咏 , 如 “榆树 衡 1599 号 "。 大 多 数 情况 下 ,每 个 住户 地 址 都 是 一 个 独立 的 家 庭 单 
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位 ,4 个 邻近 的 住户 地 址 组 成 … 群 ,抽样 框 由 群 排列 而 成 ,采用 系统 抽样 方式 抽取 
群 。 

(三 ) 区 域 抽样 框 

住户 抽样 框 难 以 包括 所 有 的 住户 单位 ,如 有 些 住户 没有 完整 的 地 址 ,或 
寄 地 址 而 没有 确 团 的 登门 地 址 ,如 “PO123 信箱 ". 随 着 时 间 变 迁 ,也 会 有 一 些 新 仁 
广 出 现 市 没 能 反映 在 住户 抽样 框 中 。 所 以 区 域 抽样 框 是 住户 抽样 框 的 补充 , 它 包 括 
吉 些 地 址 不 确切 的 住户 ,也 包括 从 建筑 许可 部 门 所 获得 的 有 关 新 建筑 的 信息 。 

最 终 抽 样 单元 USU 的 抽取 也 是 由 各 州 独立 进行 , 拙 选 时 是 以 1/ 的 抽样 概率 
从 每 个 初级 抽样 单元 PSU 中 抽取 系统 样本 。 这 里 有 是 PSU 内 的 抽样 间隔 ,由 于 各 
州 的 抽样 比 不 同 , 因 此 各 州 PSU 中 的 不 值 是 不 同 的 。 但 对 于 同一 个 州 而 言 ,不 同 家 
庭 最 终 人 选 样 本 的 概率 是 相同 的 ,由 于 CPS 的 抽样 设计 是 10 年 修订 一 次 ,在 这 10 
年 期 间 , 为 了 保证 样本 轮换 , 抽 选 时 将 10 年 间 准 备 轮 换 的 样本 一 并 抽出 备用 。 
最 后 需要 补充 的 是 ,有 时 最 终 抽样 单元 的 大 小 与 设计 要 求 有 所 偏离 ,这 些 偏离 
会 影响 到 调查 员工 作 的 顺利 完成 。 所 以 , 如 果 当 最 终 抽样 单元 有 15 个 以 上 的 住户 
单位 时 ,就 需要 采用 第 三 阶段 抽样 在 一 系列 的 上 作 实 施 后 ,工作 人 员 会 摸 清 这 种 
情况 ,并 将 原先 的 抽样 单元 划分 为 若干 个 更 小 的 最 终 抽样 单 元 ,并 在 此 基础 上 进行 
第 三 个 阶段 抽样 ,由 于 二 阶 抽样 改变 了 住户 单位 被 选中 的 概率 ,所 以 ,如 果 出 现 这 
种 情况 ,在 进行 估计 时 需要 使 用 加 权 因 子 对 抽样 概率 进行 调整 。 


























四 、 样 本 轮换 

CPS 的 样本 轮换 采用 的 是 4 一 8- .4 模式 , 即 一 个 住户 单位 在 连续 的 4 个 月 内 接 
受 调查 ,在 接 下 来 的 8 个 月 中 退出 样本 ,然后 再 接受 连续 4 个 月 的 调查 ,最 终 退出 
样本 ,轮换 方案 的 设计 使 得 具有 相同 特征 的 住户 单位 替换 退出 的 住户 单位 。 

CPS 的 样本 轮换 具有 以 下 主要 特征 : 

1. 在 任何 一 个 月 内 ,都 有 178 的 住户 单位 第 一 次 接受 调查 ,1/8 的 住户 单位 第 
二 次 接受 调查 ,如 此 下 去 。 

2. 每 个 月 都 有 新 的 样本 组 代 蔡 从 样本 中 永久 退出 的 老 样本 组 。 

3. 每 个 月 都 有 一 个 样本 组 在 8 个 月 的 闲置 后 重新 接受 调查 ,重新 接受 调查 的 
样本 组 代 蔡 了 刚刚 退出 .进入 闲置 期 的 样本 组 。 

4. 轮换 设计 保证 了 每 个 样本 单元 在 2 个 年 份 的 4 个 相同 月 份 中 接受 调查 。 

5. 在 连续 的 2 个 月 内 ,有 3 人 4 的 样本 是 相同 的 ;在 连续 的 2 年 中 ,有 1 的 样本 
是 相同 的 。 

前 面 提 到 ,CPS 的 抽样 设计 大 体 上 是 10 年 修订 -次 ,新 的 抽样 方案 涉及 对 初 
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级 抽样 单元 PSU 的 重新 界定 .PSU 的 样本 数目 的 改变 以 及 对 PSU 的 重新 抽 皮 。 这 
样 , 就 要 在 新 人 选 样本 的 PSU 地 区 雇用 新 的 调查 员 ,而 用 重 新 设计 的 抽样 方案 也 
往往 会 对 调 在 程序 作 一 些 修订 。 于 是 ,前 后 里 个 方案 的 样本 衔接 就 是 一 个 需要 注意 
的 问题 新 方案 的 样本 是 逐步 引入 CPS 实施 过 程 中 的 ,以 保证 调查 过 程 的 连续 和 
调查 数据 的 衔接 ,事实 上 ,新 的 册 样 方案 的 实施 从 1994 年 4 月 就 已 经 开始 ,经 过 一 
年 多 的 时 间 ,到 1995 年 7 月 御 底 完成 。 








$12.3 CPS 日 标量 估计 


一 ,概述 

CPS 是 以 住户 为 单位 ,对 全 美国 进行 的 二 阶段 抽样 调查 。 它 所 估计 的 主要 日 标 
量 是 以 劳动 力 资源 为 特征 的 一 系列 统计 指标 ,包括 人 口 总 数 ,性 别 、. 年 龄 .种 族 的 分 
布 等 。 为 了 从 调查 数据 中 得 到 各 判 和 全 国 的 估计 数据 ,就 需要 对 样本 中 的 每 个 被 调 
查 单位 进行 加 权 。 从 技术 角度 看 ,如 何 确定 权 数 是 口 标 基 估 计 中 的 核心 问题 。 

CPS 目标 晤 估计 程序 中 的 权 数 确定 ,大 体 需 要 经 过 以 下 步骤 : 

上 确定 CPS 样本 的 基础 权 数 和 特殊 权 数 ; 

2. 恨 据 无 回答 情况 对 样本 权 数 进行 调整 ; 

3. 为 减少 PSU 样本 方差 进行 第 一 阶段 比例 调整 ， 

4. 为 进一步 提高 估计 效率 进行 第 二 阶段 比例 调整 ; 

5. 结合 以 前 月 份 的 调查 数据 进行 复合 估计 ,以 进一步 减 小 方 六。 
































二 ,基础 权 数 和 特殊 权 数 

CPS 采用 的 是 概率 抽样 ,概率 抽样 可 以 得 到 目标 量 的 无 偏 估计 。 为 了 得 到 目标 
草 的 无 偏 估计 ,需要 用 每 个 样本 单 苑 的 调查 值 乘 以 该 单元 人 选 样本 概率 的 倒数 , 然 
后 汇总 这 些 结果 即 可 。 

所 以 ,基础 权 数 即 各 单 苑 人 选 样本 慨 率 的 倒数 。 例 如 , 某 样本 单元 人 选 的 概率 
为 19%, 则 该 单元 的 权 数 为 1 000, 意 味 着 该 样本 单元 的 情况 代表 了 1 000 个 单元 的 
情况 。 由 于 册 样 以 各 州 为 总 体 ,抽样 设计 采用 与 规模 大 小 成 比例 的 自 加 权 设 计 , 所 
以 在 各 州 内 ,各 样本 单元 的 基础 疏 数 是 相同 的 。 当 然 由 于 各 个 州 的 抽样 比 不 同 , 基 
础 权 数 在 各 个 州 是 不 同 的 。 

特殊 权 数 是 对 发 生 在 抽样 最 终 单元 USU 时 出 现 特殊 情况 而 对 权 数 进行 的 调 
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整 。 上 一 节 已 经 谈 到 ,对 每 个 LSU 而 言 ,期 望 所 包含 的 作 户 为 4 个 。 但 调查 实施 时 
发 现 ,该 USU 包含 的 住户 不 是 4 个 ,比如 说 是 8 个 ,如 果 在 这 个 USU 中 仍然 只 调查 
4 户 ,对 每 户 就 曝 了 以 -个 特殊 权 数 2, 于 是 该 USU 中 每 个 被 调查 户 的 权 数 就 是 基 
础 权 数 乘 以 特殊 权 数 ,当然 ,特殊 权 数 的 出 现 会 给 方差 估计 带 来 一 些 负 奋 影响 .为 
此 规定 ,特殊 公 数 被 限制 在 4 以 内 。 





三 \ 无 回答 调整 
调 丰 中 会 出现 无 回答 的 情况 .无 问答 有 两 种 类 卉 :单元 雹 回答 和 项 目 无 回答 
单元 无 四 答 指 被 访 户 没 有 接受 凋 查 ,如 被 访 户 家 中 无 人 或 拒 访 等 ,根据 历 史 资 料 ， 
在 CPS 调查 中 单元 无 回答 率 每 月 约 为 4% ~ 5% ,里 前 这 一 比率 还 有 上 升 趋势 ,项 
日 无 阿 答 指 被 调查 户 不 能 或 护 绝 提供 基 一 个 问题 的 信息 ,在 数据 处 理 过 程 中 ,对 项 
目 尤 回答 有 进行 处 理 的 专门 程序 ,一 般 是 采用 插 补 的 方法 为 缺失 值 模拟 一 个 御 补 
值 - 所 以 ,这 里 所 讨论 的 权 数 调 整 主要 是 针对 单元 无 问答 而 言 。 
为 了 进行 权 数 调整 , 寡 要 构造 调整 层 , 使 得 在 同 - 层 内 的 回答 单元 和 无 回答 单 
元 的 背景 尽 僵 栅 似 ,调整 层 是 在 初级 抽样 单元 PSU 的 基础 上 进行 的 ,首先 将 每 个 
州 的 PSU 分 为 两 类 ,大 城市 类 和 非 大 城市 类 ,在 每 一 类 中 又 分 为 两 个 调整 技 ,大 城 
市 类 可 分 为 中 心 城市 与 非 中 心 城市 , 非 天 城市 类 可 分 为 城镇 与 农村 .此 外 还 有 一 些 
另类 地 区 单独 分 层 , 这 样 全 国 其 分 为 254 个 调整 层 。 
对 十 每 个 调整 层 , 分 别 用 表格 列 出 受 访 户 与 无 回答 户 的 权 数 ,这 个 权 数 是 基础 
权 数 乘 以 特殊 权 数 。 然 后 计算 无 问答 调整 系数 ,调整 系数 的 计算 公式 为 ; 
FE = 2 (12.1) 

式 中 ,如 为 第 i 类 第 ) 层 楼 受 调 查 户 的 权 数 总 和 ; N, 为 第 ; 类 第 j 层 无 回答 户 的 权 

当 调整 系数 大 十 2 时 , 即 接受 调查 户 的 权 数 不 及 总 权 数 的 50% 时 ,需要 将 该 
类 两 个 层 的 加 权 总 数 合并 计算 ,日 的 是 希望 在 基 一 层 出 现 较 高 的 无 同 答 率 时 ,调整 
系数 仍 具 有 较 好 的 稳定 性 和 代表 性 .历史 数据 表明 ,这 种 合并 的 情况 是 不 多 的 。 

至 此 ,每 个 受 访 户 的 权 数 为 ， 

基础 权 数 x 特殊 权 数 x 无 问答 调整 系数 








四 、 第 一 阶段 比例 调整 
- 些 典 型 的 人 11 特 征 与 劳动 力 数据 密切 相关 ,这 些 情况 包括 年龄 种族 ,性 别 。 
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美国 最 重要 的 两 个 种 族 ( 除 白人 外 ) 是 黑人 和 西班牙 裔 ,他 们 的 情况 受到 格外 的 关 
注 。 调 查 中 每 个 月 CPS 样 本 的 人 口 特征 分 布 与 总 人 口 的 真实 分 布 有 所 不 同 PSF 
用 册 权 处 理 , 使 得 在 这 些 特 征 上 样本 的 人 [1 分 布 尽 可 能 接近 已 知 的 总 人 口 分 布 ， 
实现 的 途径 是 采用 比例 调整 -CPS 估计 过 程 中 有 两 个 比例 调整 : 第 一 阶段 比例 调 
整 和 第 二 阶段 比例 调整 。 第 一 阶段 比例 调整 主要 是 对 样本 中 黑人 分 布 进行 的 调整 ， 
通过 调整 使 得 每 个 州 内 PSU 中 的 黑人 与 非 黑人 比例 接近 该 PSU 所 代表 范 团 内 黑 
人 与 非 黑人 的 比例 .在 CPS 抽样 设计 中 , PSU 被 分 为 和 类 ， 一 -类 为 肯定 入 选择 本 ， 
这 些 PSU 具有 自我 代表 (self-representing) 性 质 ; 男 一 类 是 通过 抽 选 进 人 样本 ,这 
些 PSU 不 具有 自我 代表 (non-self-representing) 性 质 ( 见 第 二 节 CPS 抽样 设计 )。 央 
此 , 第-- 阶 段 的 比例 调整 上 是 针对 不 具有 自我 代表 性 质 的 PSU 而 言 。 
第 一 阶段 比例 调整 因子 采用 下 面 公式 计算 : 

fl 

Zales 

式 中 ,FSs 为 * 州 中 第 7 个 种 族 的 第 一 阶段 调整 因子 (7 = 黑人 , 非 黑 人 ); Cs 为 ; 放 
中 第 ; 个 种 族 第 ; 个 非 白 我 代表 PSU16 岁 以 上 的 人 口 总 数 ;Cw 为 ; 州 中 第 j 个 种 
族 第 天 个 非 自我 代表 PSU16 岁 以 上 的 人 口 总 数 ;rw 为 ; 州 中 第 有 个 非 自我 代表 样 
本 PSU 人 样 的 概率 ; 为 州 中 非 自我 代表 PSU 的 总 数 (包括 人 样 的 和 非 入 样 的 ); 


m 为 州 中 非 自我 代表 PSU 的 样本 个 数 。 
但 如 果 一 个 州 内 的 黑人 或 非 黑人 调整 因子 满足 下 列 条 件 之 一 , 即将 两 个 因子 


合并 :(1) 因子 大 于 1.3;(2) 因 于 小 于 0.769 23{ 7 上 与):(3) 该 州 内 少 于 4 个 非 自我 


代表 PSU 样本 ;(4) 该 州 内 某 一 种 族 少 于 10 个 受 访 者 。 
第 一 阶段 比例 调整 后 ,每 个 受 访 者 的 权 数 为 : 
基础 权 数 x 特殊 权 数 x 无 回答 调整 系数 x 第 一 阶段 比例 调整 因子 












































FS, {12.2) 


y= 


























五 .第 二 阶段 比例 调整 
第 二 阶段 比例 调整 的 程序 要 复杂 一 些 。 它 的 基本 思想 是 采用 选 代 的 方法 ,将 样 
本 中 一 些 有 关 人 口 特征 的 重要 变量 的 权 数 调整 到 与 总 体 数量 尽 可 能 一 致 。 每 个 月 
CPS 的 样本 都 是 由 8 个 轮换 组 构成 的 ,调整 在 每 个 轮换 组 中 进行 .进行 调整 时 有 三 
套 控制 变量 ,它们 是 ;(1) 各 州 16 岁 以 上 公民 的 总 数 ;(2) 西班牙 高 /性 别 分 组 ( 共 
14 组 ) 和 非 西 班 牙 窗 /年 龄 分 组 ( 共 $ 组 );(3) 白 种 人 /性 别 /年 龄 分 组 ( 共 66 组 )， 
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黑 种 人 《性别 /年龄 分 组 ( 共 42 组 ) ,其 他 种 族 /性 蓝 /年 龄 分 组 ( 共 10 组 )。 
由 种 族人 性 别 和 年 龄 变量 组 合成 的 分 组 的 个 数 不 同 ,体现 了 设计 人 员 对 不 同方 
面 内 容 关注 程度 的 不 同 。 
在 权 数 调整 中 ,如 果 仅 以 一 套 控 制 变量 为 日 标 ,势必 引起 与 其 他 控制 变量 的 偏 
离 , 因 此 需要 采用 选 代 方 法 使 调整 权 数 同 时 适应 所 有 控制 变量 .一 般 而 言 ,经 过 6 
次 达 代 ,就 可 以 达到 权 数 调整 的 目的 研究 人 员 认 为 ,第 二 阶段 比例 调整 不 仅 可 以 
减 小 CPS 估计 误差 ,而 且 当 和 迭代 收敛 时 ,估计 量 可 以 使 下 面 的 统计 量 最 小 化 : 
了 Wan {12.3) 
式 中 ,Wz, 为 第 i 个 样本 单元 的 最 终 权 数 ; W1; 为 第 i 个 样本 单元 的 第 一 阶段 比例 调 
整 后 的 权 数 。 
进行 第 二 阶段 比例 调整 需要 大 量 辅助 信息 , 这 些 数据 来 自 于 人 口 普查 和 其 他 
有 关 渠 道 。 
由 于 几 个 控制 变量 的 多 种 组 合 ,形成 了 众多 的 调整 组 .如果 某 些 调整 组 中 没有 
受 访 者 ,或 受 访 者 过 多 ,都 可 能 增 大 样本 估计 的 方差 ,因此 对 这 些 情况 需要 进行 识 
别 , 于 是 ,在 迭代 之 前 ,首先 需要 计算 初始 调整 因子 ,计算 公式 为 : 
初始 因子 Fx -站 (12.4) 
式 中 ,GC 为 第 ; 个 调整 组 中 的 控制 总 量 除 以 8( 因 为 CPS 样 本 中 有 8 个 轮换 组 ,调整 
是 在 每 个 轮换 组 中 分 别 进行 ); Ex 为 第 一 阶段 比例 调整 后 第 ; 个 调整 组 中 的 第 个 
轮换 组 对 控制 变量 的 估计 。 
这 些 初始 因子 的 作用 是 决定 调整 组 是 否 需 要 合并 ,如 果 符 合 下 列 条 件 之 一 , 则 
该 组 与 邻近 的 调整 组 合并 ; (1) 调整 组 中 没有 受 访 者 ; (2) 初始 因子 小 子 或 等 于 
0.6;(3) 初始 因子 大 于 或 等 于 2。 
每 一 次 的 迭代 可 以 分 解 为 三 步 : 计 算 组 内 的 调整 因子 ,用 调整 因子 进行 组 内 的 
估计 ,用 控制 总 量 除 以 该 估计 值 。 这 些 步 又 重复 6 饥 ( 即 6 次 选 代 ) 得 到 第 二 阶段 比 
例 调整 因子 。 在 这 个 基础 上 , 求 出 每 个 受 访 者 的 最 终 权 数 。 


最 终 _ 基础 、 特殊 、 无 同 答 第 一 阶段 比例 x 第 二 阶段 比例 
权 数 ” 权 数 “ 权 数 ”调整 系数 x 。 调整 因子 调整 因子 




















六 、 复 合 估计 
一 旦 获得 样本 单元 的 好 终 权 数 ,采用 霍 维 茨 - 汤普森 (Horvitz-~ Thompson) 全 
计量 ,就 可 以 得 到 CPS 估计 值 。 但 在 CPS 中 ,对 有 关 劳 动力 资源 的 大 多 数目 标量 ， 
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采用 的 是 复合 估计 (composite estimate) 方法 ,复合 估计 是 把 儿 个 估计 值 加 权 平 均 。 
CPS 的 复合 估计 包括 了 以 下 内 容 , 一 个 是 上 面 所 提 到 的 采用 替 维 芯 - 汤普森 估计 
量 所 得 到 的 CPS 当前 调查 月 份 的 估计 , 另 一 个 是 上 个 月 份 的 复合 估计 以 及 对 两 个 
上 月份 之 间 变 化 量 的 估计 .变化 量 估计 的 数据 来 源 于 鸯 个 月 份 中 75% 的 相同 样本 。 
在 1985 年 之 脐 ,复合 估计 只 采用 当月 的 替 维 艾 - 汤普森 佑 计量 和 上 个 月 份 的 复合 
估计 各 ,并 对 这 两 个 估计 其 赋予 相同 的 权 数 .1985 年 后 估计 方法 有 所 改变 ,对 .上 述 
两 个 佑 计 基 分 别 赋 耶 不 同 的 权 数 ,并 补充 了 两 个 月 份 之 间 变 化 量 估 计 这 个 因子 .以 
劳动 力 水 平 为 例 .对 劳动 力 水 平 Y', 进行 复合 估计 的 公式 为 : 

Y= (A)Y,+h(I+A)+ AB {12.5) 





这 里 
Nh SD XB = Xo.%, 
i 一 1,2,…, 8(8 个 轮换 组 ) 
Xi 为 第 个 月 份 第 ; 个 轮换 样本 第 二 阶段 比例 调整 之 后 目标 量 的 权 数 之 和 ， 
S = 12,3,4,6,7,8} 


式 中 ,YY 为 目标 量 当前 月 份 的 霍 维 欧 - 汤普森 估计 ;A, 为 月 份 : - 1 到 月 份 : 轮换 


组 变化 量 的 估计 ;BB, 为 样本 中 新 进入 的 轮换 组 (第 1,5 组 ) 和 原 有 的 组 (第 2,3,4， 
6,7,8 组 ) 之 间 净 差异 的 估计 值 ,在 估计 公式 中 之 所 以 加 上 此 项 ,是 因为 历史 数据 
表明 ,样本 中 的 新 进入 组 与 原 有 组 相 比 ,在 有 关 劳 动力 资源 和 失业 率 方面 往往 表现 
出 趋 高 的 倾向 ,加 上 这 一 项 可 以 在 某 种 程度 上 起 平衡 作用 。 如 果 不 存 在 上 述 倾向 ， 


六 的 期 望 值 则 为 零 。 

有 关 CPS 估 计 的 研究 还 表明 , 当 取 常数 & = 0.4, A = 0.2 时 ,对 有 关 劳 动力 特 
征 的 变量 来 说 , 估计 量 的 方差 可 以 下 降 公 最 理想 的 程度 (参见 Kostanich.D.and 
Bettin.P(1986), “Choosing a Composite Estimator for CPS”, presented for 
Presentation at the International Symposium on Panel Surveys, Washington, DC)。 





§12.4 ”CPS 的 方差 估计 


一 、 概 述 
CPS 中 的 方差 估计 主要 用 于 两 个 目的 :一 是 对 估计 值 的 方差 进行 估计 ,以 用 于 
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各 种 统计 分 析 ; 一 是 对 每 一 阶段 抽样 效果 和 估计 的 精确 度 进 行 评估 ,以 评价 和 改进 
抽样 设计 . 

本 节 中 所 讨论 的 问题 主要 有 :方差 估计 的 再 抽样 方法 ;1990 年 抽样 设计 的 方 
差 估计 方法 : 州 和 地 区 水 平 的 方差 估计 ;广义 方差 ;用 估计 方差 评估 抽样 设计 。 





二 ,方差 估计 的 再 抽样 方法 
用 由 抽样 方法 进行 方 基 估计 是 复杂 样本 方差 估计 经 常 采 用 的 方法 。 这 种 再 抽 
样 是 在 每 个 月 的 总 翌 本 中 ,采用 与 总 样本 相同 的 抽样 原则 和 估计 程序 ,抽取 一 些 次 
级 随机 样本 ,根据 这 些 次 级 随机 样本 的 估计 值 计算 方差 。 可 以 把 这 些 次 级 样本 称 为 
重复 样 水 。 增 加 重复 样本 的 数量 会 提高 方差 估计 值 的 准确 性 ,但 也 会 因此 而 增 大 费 
用 .所 以 ,重复 样本 的 数量 出 调查 成 本 和 对 方差 估计 质量 要 求 此 消 彼 长 的 关系 决 








1970 年 以 前 ,CPS 的 方差 估计 使 用 40 个 重复 样本 , 受 计算 机 功能 的 限制 , 仅 计 
算 了 14 个 特征 组 的 方 益 -1970 年 的 设计 采纳 了 Keyfitz 方差 计算 方法 ,这 些 方差 估 
计 运 用 泰勒 级 数 法 , 消 掉 含 有 比 第 一 项 更 高 阶 导 数 的 项 -到 1980 年 ,计算 机 内 存 的 
改进 ,使 得 采用 复合 估计 对 所 有 阶段 进行 加 权 的 再 抽样 ,计算 多 个 目标 量 的 方差 估 
计 值 成 为 可 能 、 

1980 年 以 后 ,开始 使 用 均衡 半 样 本 方法 进行 方差 估计 ,样本 被 分 割 成 48 个 重 
复 样 本 。 重 复 样本 保持 了 抽样 设计 的 所 有 特征 ,如 分 层 方法 ,PSU 内 的 样本 抽取 方 
法 等 ,但 由 于 成 本 费 册 和 计算 机 的 限制 ,这 种 方差 估计 的 方法 仅仅 使 用 了 13 个 月 
(1987 华 1 月 到 1988 年 1 月 )。 而 且 出 于 分 解 以 后 有 些 PSU 的 规模 过 小 ,地 方 一 级 
水 平 上 的 方差 估计 被 认为 不 够 可 靠 。 











三 .1990 年 抽样 设计 的 方差 估计 方法 

1990 年 设计 方案 中 的 方差 估计 采用 了 逐次 差分 再 抽样 法 。 该 方法 的 理论 基础 
由 Wolter(1984) 提出 ,又 由 Fay 和 Train(1995) 进一步 发 展 。 该 方法 是 将 被 选中 的 
最 终 样本 单元 USU( 一 般 包含 4 个 住户 单元 ) 按 相 邻 的 顺序 配对 , 如 (USU1， 
USU2),(USU2,USU3), (USU3,USU4) 等 -这 种 方法 在 方差 估计 中 更 好 地 反映 
了 系统 抽样 的 特点 ,重复 样本 的 数量 也 由 48 个 增加 到 160 个 ,以 期 提高 估计 的 精 
度 . 





由 方 莽 理论 知道 ,总 方差 由 组 内 方差 和 组 间 方 其 两 部 分 组 成 ,在 这 里 组 内 方差 
是 已 级 才 样 单元 PSU 内 由 于 抽样 所 产生 的 误差 ,又 称 PSU 组 内 方差 。 组 间 方差 是 
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指 在 所 有 的 非 自 我 代表 单元 PSU( 简 称 NSR PSU) 之 问 届 取 PSU 样本 所 产生 的 误 
又 称 PSU 组 问 方 芝 . 对 了 白 我 代表 单元 PSU( 简 称 SR PSU) ,因为 其 人 样 的 概 
为 100% ,不 涉及 该 层次 上 的 方差 计算 .所 以 逐次 差分 贞 拥 样 法 只 是 针对 总 方 莽 
和 和 PSU 组 肉 方 蕉 计算 调 宇 ,PSU 组 问 方 差 则 可 以 根据 总 方 闪 和 PSU 组 内 方差 值 推 
算 。 

再 抽样 内 子 是 根据 :个 160 > 160 的 Hadamard 正 交 矩阵 计算 出 来 的 -要 估计 
总 力 其 ,对 于 SR 样本 和 和 NSR 样 本 ,重复 样本 的 组 成 方法 是 不 同 的 。 在 州 内 ,由 NSR 
PSU 组 成 虚拟 层 ,虚拟 层 中 的 PSU 被 以 随机 的 方式 分 配给 重复 样本 的 每 个 组 。 用 
后 抽样 册子 1.5 或 0.5 来 疝 整 NSR 组 的 权 数 ,这 些 因子 由 Hadamard 矩 阵 的 行 来 确 
定 ， 从 击 进 一 步 解 释 了 虚拟 层 中 的 最 初 层 为 何 容量 不 同 (参见 
Walter(1985) Introduction to Variance Estimation"New York, Springer Verlag)。 大 
多 数 情况 下 ,虚拟 层 是 由 成 对 的 PSU 组 成 ,但 在 有 些 州 ,NSR PSU 个 数 为 奇数 ,就 
需要 构成 一 个 包含 三 个 PSU 的 虚拟 层 ,在 这 种 情况 下 ,Hadamard 矩阵 的 两 行 被 赋 
子 该 虚拟 层 ,使 得 三 个 PSU 的 再 抽样 因子 为 0.5,1.7 和 10.8, 或 者 1.5,0.3 和 1.2。 
一 个 虚拟 层 中 的 所 有 最 终 单元 USU 被 赋 耶 相同 的 行 数 。 

对 SR 样本 ,Hadamard 矩阵 的 两 行 被 赋予 给 每 对 USU, 以 构造 出 再 抽样 因子 


















f: 

万 =1+(2) Yo, ~ (2) da ,7 = 1,2,,160 (12.6) 
式 中 ,aw,., 是 在 个 系统 样本 中 ,第 ;个 USU 对 应 的 Hadamard 矩阵 中 的 数字 (+ 1 
或 - 1), 根据 此 公式 可 以 得 出 再 抽样 因子 为 1.7,1.0 和 0.3。 

依照 上 节 所 述 的 估计 程序 , 求 得 每 个 重复 样本 目标 变量 的 估计 值 了 , 和 整个 祥 
本 月 标 变 量 估计 值 交 , 则 方差 估计 值 为; 
az 人 = 页 ( 和 -区 (12.7) 
SR 样本 中 的 再 抽样 因子 1.7,1.0 和 0.3, 是 根据 (12.6) 式 计算 得 到 的 ,并 能 得 
到 (12.7) 式 中 的 数字 4, 从 而 保证 了 对 于 SR 样本 和 NSR 样本 公式 是 一 致 的 (参见 


Fay.R.and Train.G. (1995), “Aspects of Survey and Model-Based Postcensal 
Estimation of Income and Poverty Characteristics for States and Counties”, 








Proceedings of the Section on Government Statistics, American Statistical Association 
pp.154 - 159)。 
以 上 方差 估计 的 方法 也 可 以 用 来 估计 PSU 组 内 方 类 .对 于 SR 样本 ,采用 与 总 
方差 估计 相同 的 再 抽样 内 子 ; 对 于 NSR 样 本 , 则 采用 与 SR 样本 相同 方式 组 成 USU 
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配对 , 这 样 , 对 于 PSU 组 内 方差 , 所 有 的 USU 的 再 抽样 因子 均 为 1.7,1.0 和 
0.3。 

四 .地 区 和 州 水 平 的 方差 估计 

对 一 些 地 区 ,如 大 城市 地 区 的 方差 估计 可 以 通过 全 国 样本 中 的 SR 样本 部 分 的 
方差 估计 方法 得 到 , 据 估 计 , 由 于 方法 的 改进 ,这 些 地 区 的 方差 估计 和 值 比 相 同样 本 
量 用 1980 年 的 方法 得 到 的 估计 值 殉 可 靠 .然而 ,对 于 受 NSR 样 本 影响 较 大 的 地 区 ， 
方差 估计 却 是 难以 解决 的 问题 。 

州 水 平 的 方差 估计 也 是 需要 注意 的 有.…- 些 州 ,仅仅 包含 了 少量 的 NSR 性 质 
的 PSU。 将 它们 配对 组 成 虚拟 层 , 减 少 了 重复 样本 的 数量 ,方差 估计 的 可 靠 性 问题 
将 变 得 更 加 严重 ,而 在 另外 一 些 州 ,NSR 覆盖 范围 的 人 口 比重 超过 全 国 的 平均 水 
平 ,在 这 些 州 由 PSU 得 到 的 方差 估计 吕 能 变 得 更 为 重要 。 

此 外 ,为 估计 方差 而 构造 虚拟 层 , 带 人 了 新 的 层 间 方 差 ,而 这 部 分 在 抽样 设计 
中 是 没有 考虑 的 ,由 此 导致 了 对 真实 方差 的 偏 高 估计 。 对 总 体 (全 国 ) 目标 量 的 估 
计 值 进 行 方差 估计 时 ,这 种 新 产生 的 层 间 方差 影响 相对 较 小 ,但 在 州 一 级 水 平 上 的 
估计 ,这 种 方差 就 显得 较 大 。 这 是 在 估计 州 水 平 的 方差 时 需要 说 明 的 。 

对 地 区 和 州 水平 上 的 方差 估计 的 研究 仍 在 继续 ,并 取得 了 一 些 进展 。 当 这 些 研 
究 成 果 可 以 操作 时 ,方差 估计 将 会 得 到 进一步 的 改善 。 












































五 .广义 方差 {generalized variance} 

除 一 些 例外 ,在 出 版 的 报告 和 公开 的 数据 中 ,抽样 标准 误差 是 用 广义 方差 函数 
(简称 GVF) 计算 的 。 广 义 方差 函数 是 一 个 简单 的 模型 ,是 估计 量 期 望 值 的 方差 阔 
数 表达 式 ,模型 中 的 参数 采用 上 而 所 讨论 的 方法 进行 估计 。 这 些 模型 提供 了 计算 估 
计 标 准 误差 近似 值 相 对 容易 的 方法 。 

需要 回答 的 一 个 问题 是 ,为 什么 不 是 根据 调查 数据 计算 每 个 估计 值 的 标准 差 ? 
实际 上 可 以 这 样 做 ,但 个 别 标准 差 的 作用 是 有 限 的 ,数据 的 使 用 者 不 可 能 据 此 预测 
所 有 结果 之 间 的 关系 ,而 这 种 关系 是 数据 使 用 者 所 感 兴趣 的 。 更 重要 的 是 ,方差 估 
计 值 是 基于 样本 数据 得 到 的 ,也 具有 其 自身 的 方差 。 革 个 月 目标 量 估计 值 的 方差 估 
计 通 常 不 如 目标 量 估计 值 本 身 更 精确 ,这 意味 着 同一 指标 方差 估计 值 在 不 同 的 月 
份 差别 会 很 大 ,或 者 在 同一 个 月 内 具有 相关 的 不 同 指标 的 方差 估计 值 大 相 径 庭 。 
此 需要 一 些 使 得 这 些 方 盖 估计 值 更 稳定 的 方法 来 提高 其 可 靠 性 。 经 验 表明 ,使 用 广 
义 方 差 函数 可 能 会 得 到 更 稳定 的 方差 估计 值 。 

广义 方差 函数 用 于 产 牛 人 口 总 量 > 估计 值 的 估计 方差 ,函数 形式 为 
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Var(X) = aX2 + bX (12.8) 

式 中 ,a 和 6 为 用 最 小 二 乘法 得 到 的 估计 参数 。 
该 模型 的 原理 是 假定 x 的 方差 可 以 表示 为 简单 随机 样本 的 方差 与 设计 效应 
(deff) 的 乘积 。 设 计 效 应 deff 是 指 菜 一 复杂 抽样 设计 相对 于 简单 随机 抽样 设计 的 


效果 .定义 P= 若 为 具有 X 特征 的 人 口 比例 ,N 为 人 口 总 数 ,Q = 1 - P, 由 个 
样本 单元 得 到 总 量 估计 信 X 的 方 关 为: 


Var(%) = Se PQAeD (12.9) 
又 可 将 上 式 写 为 : 

Var =— deff UK + aeff Nx (12.10) 
今 

= 
则 


Var(X) = aX? + bX 
我 们 取 a = - 访 , 这 里 N 为 控制 总 三 , 当 z = N 时 ,方差 为 零 。 
参数 a 和 4 用 相对 方差 模型 进行 估计 ,相对 方差 模型 为 ; 
VX? = at+ 辫 (12.11) 
相对 方 益 VX? 是 方差 除 以 估计 期 望 人 平方 .通过 一 组 相关 的 估计 值 和 这 些 估 
计 值 的 相对 方差 拟 合 模型 ,得 到 系数 。 和 的 估计 ,估计 和 值 相对 方差 则 是 采用 逐次 
差分 再 抽样 方法 计算 得 到 的 。 
模型 拟 合 采用 迁 代 加 权 最 小 二 乘法 , 权 数 是 相对 方差 平方 的 倒数 采用 这 个 权 
数 是 为 了 防止 具有 较 大 的 相对 方差 项 对 a 和 5 的 估计 产生 影响 通常, 至 少 使 用 一 
年 的 数据 用 于 此 模型 的 拟 合 ,同时 ,每 个 组 至 少 有 20 个 项 估计 值 及 其 相对 方差 需 
要 注意 的 起, 使 用 模型 来 估计 估计 值 的 相对 方差 可 能 会 引 和 一些 误差 ,因为 模型 可 
能 对 一 些 合理 的 极 值 进行 了 很 大 的 修正 。 计 算 广义 方差 是 为 了 估计 不 同月 份 间 的 
变化 及 月 度 水 平 ,参数 a 和 6 会 定期 更 新 ,以 便 反 映 总 体 总 量 的 变化 和 由 于 样本 缩 
减 造成 的 立 之 比 的 变化 。 
当 a 和 6 确定 之 后 ,就 可 以 构造 一 个 表格 ,在 才 格 中 给 出 具体 的 估计 结果 。 
然而 许多 报告 都 给 出 了 有 关 参 数 的 列表 , 使 用 者 可 以 直接 利用 列表 计算 广义 方 
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差 的 估计 值 。 表 12.1 就 是 从 就 业 和 薪 钴 的 列表 中 (美国 劳工 部 提供 ) 截取 的 例 
子 。 











表 32.1 月 度数 据 标准 误差 计算 参数 
4 T 4 
失业 ; 
总 体 或 自 人 一 0.000 015 749 2 464.91 
黑 种 人 0.000 [91 460 2 621.89 
西 班 站 商 i 一 0.000 098 631 2 704.53 





月 度 估计 值 文 的 近似 标准 差 S 可 以 由 上 表 中 4,6 及 以 下 公式 得 到 : 


SK =Y aR + 6R (12.12) 
假设 某 个 月 城市 劳动 力 中 的 失业 人 数 为 6 000 000( 文 = 6 000 000) , 则 由 表 
12.1 知 ; 
a =—0.000 015 749,6 = 2 464.91 
S% = 119 000 


月 度 城市 失业 人 口 估计 值 9% 的 置信 和 区间 是 5810000 ~ 
6 190 000(6 000 000 + 1.6 x 119 000) 之 间 。 


六 、 用 估计 方差 评估 抽样 设计 

自 CPS 调查 开始 以 来 ,抽样 设计 和 估计 方法 发 生 过 很 多 变化 ,这 是 因为 CPS 
闪 是 力求 最 大 限度 地 优化 所 能 得 到 的 资源 ,最 大 限度 地 运用 最 新 的 技术 。 在 不 同 历 
史 时 期 对 可 靠 性 要 求 的 不 同 ,也 导致 了 这 些 变化 要 进行 有 效 的 抽样 设计 ,运用 估 
计 方差 进行 评估 是 必要 的 。 

前 面 曾 提 到 ,CPS 的 总 方差 包括 PSU 组 内 方差 和 NSR PSU 组 间 方 差 。 实 际 上 ,” 
对 于 大 部 分 措 慰 来 说 ,PSU 组 内 方差 已 经 解释 了 总 方差 的 90% ,但 不 同 指标 之 间 
是 有 差异 的 。 例 如 ,对 于 国内 劳动 力 和 非 劳动 力 指标 ,方差 几乎 全 部 来 自 于 PSU 内 
的 住户 单元 抽样 ; 对 于 农业 就 业 总 人 口 和 农业 白人 就 业 人 口 ,PSU 组 内 方差 解释 
了 总 方差 的 60% ~ 70% ;而 农业 西 班 秆 裔 就 业 人 口 和 非 农业 西班牙 褒 人 口 PSU 
组 内 方差 占 总 方差 的 约 80% ~ 90% ,这 至 少 表明 CPS 对 初级 抽样 单元 PSU 的 界 
定 , 分 类 ,分 层 和 抽样 是 非常 成 功 的 。 

相对 方差 可 以 用 于 对 估计 程序 和 估计 步 又 的 评估 。 使 用 相对 方差 比 使 用 方差 
本 身 更 有 意义 ,因为 估计 的 不 同 阶段 可 能 既 影 响 估计 水 平 ,也 影响 方差 本 身 。 估 计 
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程序 包括 :确定 基础 权 数 , 特 义 权 数 ,无 回答 调整 ,第 一 和 第 二 阶段 比例 调整 ,以 及 
复合 估计 方法 的 采用 。 例 如 如 果 经 过 加 权 和 调整 ,采用 无 偏 估计 方法 ( 即 不 是 采用 
复合 估计 方法 ) 失业 率 相对 方差 (变异 系数 的 平方 ) 的 估计 值 为 3.590 x 10… ,但 如 
果 仅 仅 采用 基础 权 数 和 特殊 权 数 进行 估计 ,相对 方差 则 是 它 的 1.06 倍 ,如 果 再 加 
上 无 回答 调整 因子 ,相对 方差 则 是 它 的 1.05 倍 。 由 此 可 以 看 出 在 失业 率 指标 的 估 
计 上 各 个 加 权 调 整 程序 所 起 的 效果 。 

从 整个 佑 计 过 程 看 ,对 于 全 国 指标 的 估计 ,第 一 阶段 的 比例 调整 对 相对 方差 的 
个 计 几乎 没有 产生 什么 影响 .第 一 阶段 比例 调整 的 目的 是 为 了 降低 州 水 平 上 的 估 
计 值 方差 ,但 是 否 实现 了 这 个 目标 ,其 效果 尚 待 检验 。 

然而 第 二 阶段 的 比例 调整 效果 却 是 明显 的 , 它 的 引 人 大 大 减 小 了 总 方差 ,特别 
基 对 那些 像 年龄 .性别 ,种族 这 种 比例 较 高 的 分 组 ,效果 尤其 明显 ,例如 ,国内 劳动 
力 中 白人 、 黑 人 或 西班牙 育 的 人 数 或 者 非 农 业 领 域 中 的 就 业者 人 数 , 若 没 有 第 二 阶 
段 的 比例 润 整 ,相对 方差 将 会 提高 几 倍 .但 对 于 一 些 规模 很 小 的 分 组 ,如 农业 中 就 
业 和 失业 的 情况 ,第 二 阶段 的 比例 调整 没有 明显 的 效果 。 

估计 程序 的 最 后 一 步 是 复合 估计 。 复 合 估计 是 利用 两 个 月 份 中 75% 的 复合 样 
本 的 有 关 信 息 改进 对 月 份 变化 的 估计 。 例 如 ,西班牙 帘 失 业 人 数 复合 估计 的 估计 方 
差 为 3.659 x 10?, 它 是 经 过 各 阶段 加 权 以 后 估计 值 估计 方差 的 92% ,也 就 是 说 ,在 
该 指标 中 ,复合 估计 使 估计 方差 下 降 了 8% 。 此 外 ,也 可 以 利用 设计 效应 deff 作为 
评估 的 另 一 个 指标 ,设计 效应 的 计算 公式 是 (12.9) 式 , 式 中 的 PP 和 Q 由 6 个 月 的 数 
据 综合 而 成 ,就 失业 人 口 耐 言 ,复合 估计 的 设计 效应 为 deff = 1.229。 这 说 明 , 在 样 
本 量 相同 情况 下 ,CPS 抽样 设计 (包括 样本 抽 选 ,加 权 程序 和 复合 估计 ) 的 方差 比 
简单 随机 抽样 的 无 偏 估计 的 方差 高 接近 23 个 百分点 。 另 一 方面 ,如 果 不 是 采用 复 
合 估计 ,设计 效应 则 为 1.314, 这 也 说 明 ,在 CPS 设计 中 复合 估计 比 通常 的 估计 有 
更 好 的 效果 。 


























$12.5 ” 非 抽样 误差 及 控制 


一 ,概述 
非 抽样 误差 可 能 产生 在 调查 的 各 个 阶段 ,而 且 不 易 辨认 ,显然 , 非 抽 样 误差 的 
， 存 在 将 影响 调查 结果 中 偏差 的 产生 和 方差 的 增 大 ,但 这 些 影响 难以 被 测量 。 因 此 最 
适当 的 策略 偶 过 于 了 解 非 抽样 误差 产生 的 原因 ,并 在 调查 中 采取 有 效 的 措施 防范 。 
1994 年 以 前 ,研究 人 员 对 CPS 中 的 非 抽样 误差 曾 做 过 很 好 的 研究 ,但 1994 年 
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1 月 以 后 ,对 CPS 中 的 非 抽样 误差 没有 像 以 前 那样 进行 过 精密 的 测定 。 由 于 CPS 使 
用 了 计算 机 作为 采集 数据 的 工具 ,因而 以 前 的 研究 结果 对 目前 的 情况 在 多 大 程度 
上 适用 也 不 清楚 。 但 是 可 以 肯定 ,有 几 类 主要 的 非 抽样 误差 一 定 存在 于 CPS 之 中 。 
一 类 是 由 于 抽样 框 或 其 他 信息 资源 有 误 所 引起 的 误差 , 另 一 类 是 由 于 调查 中 的 无 
回答 所 带 来 的 误差 ,还 有 一 类 误差 产生 于 被 调查 者 不 真实 的 回答 。 本 节 将 对 这 几 种 
类 型 的 误差 来 源 和 控制 措施 做 简要 的 介绍 和 讨论 。 








二 、 抽 样 框 误 差 及 控制 

完善 的 抽样 框 的 标志 是 , 日 标 总 体 与 被 抽样 总 体 中 的 单元 一 一 对 应 ,抽样 框 中 
的 目标 单元 用 没 有 重复 ,也 没有 遗漏 。 但 调查 实践 中 很 难 找到 这 样 好 的 抽样 框 ,在 
大 规模 调查 中 更 是 如 此 在 CPS 中 ,两 类 问题 比较 明显 ,一 个 是 遗漏 , 即 抽样 框 中 
遗漏 掉 目 标 总 体 单元 ; 另 一 个 是 不 适当 涵盖 , 即 抽样 框 中 包含 了 不 应 接受 调查 的 单 
元 。 从 CPS 的 历史 看 ,遗漏 情况 更 为 严重 ,其 后 果 是 造成 总 量 估 计 偏 低 。 

遗漏 产生 的 主要 来 源 有 :(1) 地 址 不 清 。 指 调查 地 址 不 完整 或 有 些 单元 无 法 确 
定 其 地 址 。《2) 新 建筑 产生 ,特别 是 农村 一 些 地 区 未 经 建筑 许可 部 门 批准 而 兴建 的 
建筑 ,这 些 建 筑 没有 被 登记 ,因而 不 会 出 现在 抽样 框 中 。(3) 户 内 单元 遗漏 。 把 本 应 
属于 某 住户 单元 的 成 员 销 认 为 不 属于 该 住户 单元 的 成 员 。 此 外 ,也 还 包括 对 无 家 可 
妇 者 的 遗漏 据 测算 ,1997 年 1 月 CPS 对 16 岁 以 上 人 口 总 体 的 遗漏 率 (包括 各 种 类 
型 的 遗漏 ) 大 约 为 8% 。 一 般 来 说 , 对 黑人 的 遗漏 率 最 高 , 约 为 17% ,其 中 又 以 25 
岁 ~34 岁 年 龄 组 的 男性 黑人 遗 沁 率 最 高 ,对 女性 的 遗漏 率 则 要 低 一 些 。 

抽样 框 误差 的 控制 措施 主要 包括 以 下 几 个 方面 。 

(一 ) 样本 检验 

样本 检验 包括 样本 测试 和 结果 检验 两 个 方面 。 

样本 测试 是 在 样本 抽取 之 前 对 各 种 抽样 程序 进行 测试 ,以 保证 这 些 程序 可 以 
单独 或 联合 运行 ,用 一 些 由 极端 值 构成 的 小 规模 数据 检验 整个 系统 在 特殊 情况 下 
的 表现 。 例 如 ,用 1990 年 普查 中 的 异常 情况 检验 同年 CPS 抽 样 过 程 ,这 些 情况 包括 
航海 器 中 的 船员 ,特殊 的 集体 户 件 所 以 及 印第安 保留 地 中 的 情况 等 ,设计 人 员 编 写 
了 一 些 程序 用 以 验证 抽样 过 程 是 否 能 够 正确 .恰当 地 解决 这 些 问题 。 

结果 恰 验 主要 是 对 抽样 结果 的 检验 , 验证 系统 是 否 是 在 真实 数据 的 基础 上 运 
行 .检验 的 例 于 有 :初级 抽样 单元 PSU 入 样 概率 之 和 是 否 为 1; 查验 文件 中 的 空 字 
段 及 超出 定义 范围 的 数据 ;检验 文件 的 一 致 性 ,例如 选 入 样本 的 PSU 与 输出 结果 
的 内 容 是 否 相 一 致 ;检验 信息 的 集中 化 程度 ,如 所 有 各 州 的 抽样 比 应 纳入 同一 个 参 
数 文件 中 .等 等 ,作为 一 项 站 体 一 敏 作 的 验证 手段 ,抽样 过 程 中 某 些 阶段 的 结果 被 
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用 来 与 以 前 CPS 调查 设计 的 结果 进行 比较 。 

{二} 名 单 审核 

对 每 个 月 使 用 的 名 录 进 行 审核 , 以 把 抽样 框 误差 控 制 在 尽 可 能 小 的 程度 。 目 
前 ,名 录 审 核 工作 的 速度 尚 不 足以 保证 工作 过 程 中 发 现 的 错误 都 能 及 时 得 到 纠正 ， 
但 审核 的 自动 化 程度 已 使 审核 进度 得 到 了 巨大 的 提高 ,从 而 为 CPS 提供 更 为 精确 
的 抽样 框 。 

审核 内 容 的 一 些 例子 有 : 当 名 永 上 的 单元 数 日 超过 或 低 于 预定 数目 时 ,是 否 有 
恰当 的 说 明 , 是 否 有 新 名 单 的 出 现 ,是 否 发 现 了 多 余 的 单元 ,是 否 有 名 单 上 漏 掉 的 
单元 ,是 省 有 样本 单元 没有 序列 号 的 情况 ,单元 名 称 是 否 有 变化 ,是 否 有 样本 单元 
被 破坏 或 废弃 。 

{三 ) 样本 登记 

样本 登记 描述 了 ~ 个 工作 过 程 。 调 查 组 织 部 门 任 此 来 确认 访问 员 是 否 找到 全 
部 的 样本 单元 。 由 于 CPS 全 部 借助 电脑 进行 访问 ,因此 可 以 对 样本 实施 追踪 ,达到 
对 样本 进行 更 密切 的 控制 ,样本 登记 主要 被 用 来 控制 和 检验 样本 的 数量 ,这 也 有 助 
于 访问 员工 作 任务 的 平衡 分 配 。 




















三 \ 无 回答 误差 及 控制 

CPS 中 有 许多 因素 导致 无 回答 。 一 种 情况 是 被 调查 住户 为 空 户 ,或 尚未 建成 ， 
或 已 毁损 ,或 为 非 日 标 居民 (如 外 国人 ) 等 .CPS 不 把 这 种 情况 视 为 无 回答 ,因为 它 
们 本 来 就 在 调查 范围 之 外 。 这 里 所 说 的 无 回答 指 拒绝 回答 .没有 能 力 回 答 、 或 由 于 
其 他 原因 (如 外 出 ) 而 无 法 取得 联系 等 ,在 CPS 中 ,把 这 类 无 回答 称 为 A 类 无 回答 。 

无 回答 还 有 其 他 一 些 类 型。 住户 中 的 某 个 人 可 能 拒绝 接受 访问 ,从 而 引起 个 人 
无 回答 .个 人 无 回答 在 CPS 中 不 是 主要 问题 ,因为 住户 中 的 其 他 人 可 以 代 其 回答 。 
另外 一 种 是 项 目 无 回答 , 即 被 调查 者 接受 调查 ,但 拒绝 回答 某 个 或 某 些 特定 问题 。 
在 CPS 中 ,有 处 理 项 目 无 回答 的 插 补 程序 ,但 这 并 不 能 保证 消灭 项 目 无 回答 所 带 
来 的 误差 ,项 目 无 回答 还 可 能 将 潜在 的 各 种 偏差 引 人 估 计 。 

对 无 回答 进行 控制 的 主要 措施 有 以 下 几 方 面 。 

(一 ) 现场 指导 

CPS 有 专门 的 文件 ,指导 现场 访问 员 的 操作 。 结 合 其 他 有 关 的 信息 来 源 ,管理 
人 员 可 以 对 现场 访问 员 的 表现 做 出 评价 。 如 果 一 个 访问 员 的 A 类 无 回答 率 ,或 者 在 
每 个 样本 单元 花费 的 平均 时 间 超 过 正常 工作 水 平 的 144, 该 访问 员 就 需要 接受 额 
外 的 培训 。 全 国 和 地 区 在 回答 率 方面 的 资料 还 被 用 于 地 区 部 门 对 自己 范围 内 的 现 
场 操作 情况 的 评价 ,以 决定 是 天 需要 采取 其 他 补充 措施 。 
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{二 ) 概况 统计 表 

对 无 回答 进行 监控 的 另 一 个 措施 是 概况 统计 表 , 它 由 调查 总 部 制作 ,用 来 了 解 
回答 类 型 和 回答 方式 的 变化 ,并 被 用 于 评估 数据 的 质量 。 概 况 统计 表 包括 的 内 容 大 
致 有 :地 区 的 无 回答 率 ; 与 前 一 年 月 度 相 比 的 情况 ;无 回答 变 为 回答 的 转化 率 ; 计 算 
机 辅助 电话 调查 样本 的 比较 ;每 月 新 样本 的 访问 情况 等 。 

(三 ) 专项 检查 

在 一 份 “ 方 法 与 表现 评估 备忘录 "(Reeder.1997 “Regional Response to 
Qucstions on CPS Type A Rates”,Bureau of the Census,CPS Office Memorandum 
No.97 ~07, Methods and Performance Evaluation Memorandum No.97 — 03 ,January 
31,1997) 中 详细 记载 了 联邦 普查 局 和 劳工 统计 局 组 成 的 工作 小 组 对 CPS 中 无 回 
答 状况 进行 检查 的 情况 。 检 查 的 目的 之 - -是 寻找 CPS 回答 率 下 降 的 原因 和 解决 办 
法 ,检查 中 提出 了 31 个 问题 ,以 便 了 解 CPS 的 现场 操作 ,并 了 解 实施 部 门 对 无 回答 
率 上 升 原因 的 看 法 ,以 及 对 光 回 答 现象 进行 控制 的 措施 。 该 项 工作 得 到 了 如 下 信 
息 :(1) 访问 员 能 够 尽快 地 让 地 区 部 门 了 解 无 回答 住户 的 情况 。(2) 在 大 部 分 地 区 
中 ,对 无 回答 出 现 后 所 采取 的 补救 措施 有 文字 说 明 。(3) 大 部 分 地 区 对 特定 情况 下 
的 明确 拒 访 采取 了 使 其 转变 的 补救 。(4) 所 有 地 区 对 访问 员 提 交 的 月 度 无 回答 报 
告 都 给 予 了 及 时 的 信息 反锁 。(5) 有 约 半数 的 地 区 对 访问 员 进 行 了 特殊 的 技术 培 
训 , 以 处 理 调查 中 的 无 回答 问题 。 
由 此 看 出 ,CPS 对 控制 调查 中 的 无 回答 有 一 套 比 较 完整 的 程序 , 这 些 程序 包 
括 ;实施 调查 的 操作 人 性 手册 ,使 访问 员 有 章 可 循 ;调查 结果 的 汇报 制度 ,使 有 关 人 员 
及 时 掌握 无 回答 的 情况 及 变动 趋势 ,以 便 有 针对 性 地 采取 补救 措施 ;定期 的 专项 检 
查 和 问题 研讨 ;对 访问 员 进 行 专门 的 技术 培训 。 























四 、 回 答 误差 及 控制 

回答 误差 指 受 访 者 向 调整 人 员 提供 的 答案 与 真实 情况 不 一 致 。 在 CPS 中 , 产 
生 回答 误差 的 原因 主要 有 以 下 一 些 : (1) 理解 问题 , 受 访 者 对 问题 理解 有 偏 误 , 因 
而 提供 了 错误 的 答案 ,(2) 记性 问题 。 由 于 记忆 不 清 或 不 知 真 实 答案 而 猜测 , 任 选 
其 中 一 个 答案 (3) 心理 问题 。 由 于 某 些 原因 ,有 意 夸 大 或 缩小 某 项 回答 。(4) 访问 
员 问 题 。 册 于 访问 员 念 错 ,或 没有 遵守 规则 的 跳 问 , 导 致 对 方 回 答 错误 ,也 包括 访问 
员 记 录 答 案 的 错误 。 

在 CPS 中 ,对 回答 误差 的 主要 检控 措施 有 以 下 几 方 面 。 

(一 ) 软件 

20 世纪 90 年 代 以 后 ,计算 机 辅助 调查 在 CPS 中 发 挥 了 重要 作用 。 现 在 的 软件 
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技术 能 够 为 每 次 访问 提供 经 过 自动 选择 的 问题 。 计 算 机 屏幕 显示 出 答案 的 选项 , 访 
问 员 无 须 再 担心 由 于 跳 问 不 当前 导致 出 错 。 题 项 的 文本 中 会 自动 填 人 规范 的 名 称 、 
代词 ,动词 和 参考 日 期 。 如 果 在 提 某 个 问题 时 妥 访 者 拒 答 ,那么 以 后 则 不 再 对 该 项 
月 提 问 , 空 项 目 由 项 目 无 回答 的 播 补 程序 去 处 理 ,这 样 就 把 由 于 回答 失真 所 带 来 的 
非 抽样 并 差 与 无 回答 带 来 的 误差 区 分 开 来 。 软 件 还 可 以 在 调查 实施 中 进行 还 辑 审 
核 , 使 访问 员 有 机 会 对 不 正确 或 不 一 致 的 信息 做 出 判断 和 纠正 。 

(二 ) 问卷 

现在 CPS 的 问卷 是 不 断 修订 的 结果 ,修订 的 旭 的 之 一 是 减少 由 于 问卷 一 受 访 
者 一 访问 员 之 闻 的 相互 影响 而 导致 潜在 的 同 答 误 差 ,提高 有 关 概 念 的 可 测量 性 。 
具体 的 方法 包括 :更 短 更 清楚 的 问题 措辞 ; 把 复杂 问题 拆 分 为 两 个 或 更 多 的 问题 ; 
问题 的 措辞 中 表现 出 对 概念 的 定义 ;对 受 访 者 主动 提供 信息 的 依赖 要 减少 ;采用 不 
同 的 策略 使 受 访 者 提供 数字 信息 ;对 开放 性 问题 实行 预 编码 等 。 

{三 ) 检验 与 改进 

研究 人 员 在 对 CPS 设计 方案 的 不 断 修订 和 对 调查 问卷 的 不 断 研究 中 积累 了 
许多 经 验 , 这 些 经 验 又 被 用 于 对 另外 一 些 新 问题 的 研究 ,以 保证 这 些 新 问题 不 会 给 
采集 数据 带 来 失真 的 危险 ,同时 这 些 问 题 又 是 调查 内 容 所 需要 的 恰当 问题 。 

对 现 有 调查 问题 进行 改进 也 很 有 价值 .对 某 些 回答 “不 知道 ”或 拒 答 比 例 较 高 
的 问题 进行 专门 的 分 析 , 对 访问 员 的 调查 总 结 进行 复核 ,访问 员 和 督导 之 闻 的 小 组 
会 议 也 定期 举行 。 

尽管 对 老 问题 和 旧 方 法 的 改进 将 有 益 于 CPS 的 数据 质量 ,但 仍 需 要 对 这 些 改 
进 进行 试验 和 效果 评估 后 才能 正式 实施 。 例 如 ,在 引 人 CPS 重 新 设计 方案 的 头 5 个 
月 ,同时 也 在 实施 一 项 仍 使 用 原 方案 的 平行 调查 平行 调查 的 结果 用 于 对 新 方案 在 
无 回答 率 和 数据 估计 等 方面 产生 的 影响 进行 评估 。 

(四 ) 对 访问 员 的 培训 和 监督 

对 访问 员 进行 集体 培训 和 个 别 指导 是 每 个 地 区 部 门 为 控制 各 种 非 抽样 误差 都 
要 进行 的 连续 性 工作 。 培 训 内 容 包括 增加 访 员 的 责任 心 . 严 格 按 程序 操作 、 学 习 处 
理 疑难 问题 的 技巧 。 

现场 监督 是 用 来 检查 和 改进 现场 访问 员工 作 的 方法 之 一 , 它 为 评价 访问 员 的 
工作 态度 和 电脑 使 用 情况 提供 了 一 个 正式 渠道 。 共 有 三 种 监督 :最初 工 作 的 监督 、 
一 般 表现 监督 和 特别 需要 监督 ,在 所 有 这 些 监 督 过 程 中 ,督导 都 会 强调 良好 访问 技 
巧 的 保持 , 按 要 求 的 措 酬 提问 ,遵守 调查 手册 的 规定 ,知道 怎样 进行 问题 探索 进行 
详细 的 调查 记录 在 受 访 者 改变 已 经 给 出 的 信息 时 做 出 正确 的 判断 和 恰当 的 处 理 、 
确定 进行 访问 的 最 适当 时 间 和 场合 等 。 
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{ 五 ) 代 答 效果 评价 

现场 访问 要 求 每 个 受 访 者 提供 关于 自己 的 信息 ,但 真正 实施 是 很 难 的 .从 时 间 
和 效率 的 角度 出 发 ,具有 足够 知识 的 成 年 住户 成 员 可 以 为 本 住户 其 他 成 员 代 答 。 所 
以 在 CPS 资料 中 ,大 约 有 一 半 的 数据 来 自 于 代 答 。 非 住户 成 员 的 代 答 只 有 在 特殊 
的 情况 下 才 被 允许 。 

有 大 量 的 研究 对 受 访 者 自 答 和 代 答 的 效果 进行 了 评价 .许多 研究 指出 , 自 答 比 
代 管 更 可 靠 ,尤其 在 可 能 有 动机 上 的 原因 使 二 者 发 生 差别 时 更 是 如 此 。 例 如 ,对 于 
孩子 的 情况 ,父母 倾向 于 更 好 的 描绘 。 但 在 某 些 情况 下 代 答 的 回答 可 能 更 准确 ,如 
对 某 些 敏 感性 问题 的 回答 。 

(六 ) 访问 员 与 受 访 者 的 互动 

与 受 访 者 形成 互动 关系 是 提高 数据 质量 的 一 个 有 效 手段 ,对 新 样本 的 每 第 1 
个 月 和 第 5 个 月 的 而 访 更 需要 注意 (第 1,5 次 调查 为 面 访 ,第 2,3,4,6,7,8 次 为 电 
话 调查 )* 通 过 表现 出 对 受 访 者 真诚 的 理解 与 兴趣 ,可 以 建立 一 种 友好 的 气氛 , 受 访 
者 就 愿意 诚实 公开 地 回答 问题 访问 员 要 精确 地 按 规定 的 措辞 提出 每 一 个 问题 ， 
如 果 对 方 没有 理解 或 误解, 就 将 问题 重复 一 遍 。 如 果 仍 未 获得 需要 的 回答 ,就 采用 
一 些 探索 性 技巧 。 要 创造 一 个 良好 的 氛围 ,以 利于 以 后 的 接触 。 

(七 ) 再 访问 程序 

对 一 些 住户 进行 两 次 调查 ,将 两 次 调查 的 结果 进行 比较 ,对 其 中 的 差异 进行 分 
析 。 实 际 上 这 项 工作 也 对 指导 手册 、 培 训 工作 和 工作 程序 同时 进行 了 评价 。 























301 












































| 附录 1 
\ a et NE 
方差 估计 软件 的 介绍 与 比较 


几乎 所 有 的 统计 分 析 软 件 都 可 以 计算 简单 随机 抽样 的 方差 ,并 能 够 进行 加 权 
估计 ,例如 SAS 和 SPSS。 但 很 多 软件 都 没有 考虑 分 层 、 多 阶段 等 因素 ,也 无 法 对 方 
差 估计 进行 加 权 处 理 ,因而 无 法 计算 复杂 抽样 设计 的 抽样 方差 。 对 于 实际 抽样 中 的 
方差 估计 ,一 般 需 要 有 专门 的 方差 分 析 软 件 。 附 录 1 介绍 方差 估计 的 几 种 主流 软件 
并 对 之 进行 比较 ,附录 2 则 介绍 PC CARP 软件 的 基本 用 法 ,以 及 如 何 应 用 它 对 和 缺 
失 数 据 进行 处 理 。 





一 方差 估计 软件 概述 

与 抽样 调查 的 广泛 应 用 相 适 应 ,抽样 方差 估计 的 软件 发 展 也 十 分 迅速 ,美国 统 
计 学 会 (ASA) 的 调查 研究 方法 分 会 甚至 专门 建立 了 网 页 介绍 调查 分 析 软 件 , 该 网 
址 为; 

http; //www. fas. harvard. edu/ ~ stats/survey-soft/survey-soft. html 

通过 该 网 页 可 以 了 解 方 差分 析 软 件 的 一 些 最 新 动态 ,网 上 所 列 出 的 主要 调查 
分 析 软 件 有 : 

。 Baseula 来 自 Statistics Netherlands( 荷 兰 统计 局 )。 

，CENVAR 来 自 U.S. Bureau of the Census( 美 国 普查 局 )。 

302 











局 )。 


CLUSTERS 来 自 University of Essex(Essex 大 学 )。 
Epi Info 来 自 Centers for Disease Control( 疾 病 控制 中 心 )。 
Generalized Estimation System (GES) 来 自 Statistics Canada( 加 拿 大 统计 





IVEware (beta version) 来 自 University of Michigan( 密 吹 根 大 学 )。 
PCCARP 来 自 Iowa State University( 艾 奥 瓦 州立 大 学 )。 
SAS/STAT 来 自 SAS lnstitute(SAS 研究 所 )。 

Stata 来 自 Stata Corporation{Stata 公司 )。 

SUDAAN 来 自 Research Triangle Institute( 三 角 研 究 所 )。 

VPLX 来 自 U.S，Bureau of the Census( 美 国 普 查 局 )。 

WesVar 来 自 Westat，Inc(Westat 公司 )。 





二 、 四 种 方差 估计 软件 简介 
以 上 抽样 方差 软件 都 可 以 进行 复杂 样本 的 方差 估计 ,但 不 同 软件 采用 的 估计 


方法 .功能 和 特性 有 很 大 差异 ,在 选择 软件 前 ,有 必要 了 解 这 些 软件 的 特征 和 性 质 。 
这 里 主要 介绍 PC CARP, Stata, SUDAAN 和 WesVar 等 四 种 主流 方差 估计 软件 。 


Stati 


体 校 

















1.PC CARP 

PC CARP 软件 1986 年 由 艾 奥 瓦 州立 大 学 统计 实验 室 (Jowa State University 
stical Laboratory) 研制 。 

《1) 适用 的 抽样 设计 : 专 为 多 阶段 分 层 抽样 设计 ,对 两 阶段 抽样 可 计算 有 限 总 
正 系数 。 
(2) 提供 的 估计 和 统计 分 析 : 主要 用 于 构造 总 量 、 均 值 .比率 和 比率 差异 的 估 


计 值 ,计算 估计 量 的 标准 差 变异 系数 .设计 效应 等 ,还 可 进行 加 权 回 归 估计 。 


立 一 


量 没 


人 处 


(3) 方差 估计 主要 方法 :泰勒 线性 近似 法 (Taylor iinearization) 。 

(4) 运行 环境 :DOS 或 Windows 操作 系统 。 

(5) 数据 要 求 :文本 数据 文件 ,数据 按 初 级 抽样 单元 排序 ,对 数据 文件 还 要 建 
个 相对 应 的 变量 名 文件 ,其 格式 为 只 包含 一 列 变 量 名 的 文本 文件 .对 观测 值 数 
有 限制 ,最 多 可 同时 计算 50 个 变量 的 方差 。 

《6) 软件 的 一 般 性 描述 ,有 文本 菜单 屏 问 的 单独 程序 ,数据 作为 ASCII 文本 输 
理 。 
《7) 价格 :基本 模块 价格 300 美 元 , 若 增加 logistic 回 归 和 事后 分 层 功能 ,每 个 模 








卖 增 加 50 美元 。 操 作 手 册 每 份 售 价 8 美元 。 


(8) 联系 信息 : 
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Sandie Smith, Statistical Laboratory,219 Snedecor Hall, [owa State University 

Ames, IA 50011 - 1210 

Phone: (515)294 - 9773 

Fax: (515)294 - 4433 

E-mail: sandie@iastate.edu 

Web page: http://www.statlab. iastate. edu/survey/index6. html 

2. Stata 

Stata 软件 由 美国 Stata 公司 研制 。 

(1) 适用 的 抽样 设计 :适用 于 分 层 抽样 . 整 群 抽样 ,多 阶段 抽样 的 方差 估计 ,对 
层 内 样本 单位 的 不 放 回 简单 随机 抽样 可 计算 有 限 总 体 校正 系数 。 

(2) 提供 的 估计 和 统计 分 析 : 包 括 均值 .总 量 、 比 率 、 比 例 .线性 回归 、Logistic 回 
归 和 probit; 并 提供 点 估计 、 相 应 的 标准 差 、 置 信 区 间 、 全 总 体 和 子 总 体 的 设计 效 
应 ;还 可 以 对 估计 量 的 线性 组 合 提供 以 上 所 有 信息 ,并 进行 假设 检验 。 

(3) 方差 估计 主要 方法 :泰勒 线性 近似 法 {Tayior linearization)。 

(4) 运行 环境 :Windows 95，WindowsNT，Windows 3.1，DOS 等 。 

(5) 数据 要 求 ;最 大 观测 值 数量 仅 受 计算 机 内 存 的 限制 ,最 大 变量 数 为 2 047。 

(6) 软件 的 一 般 性 描述 :Stata 是 一 个 具有 全 和 面 的 统计 功能 数据 管理 和 图 形 功 
能 的 统计 分 析 软 件 包 。 它 可 以 交互 式 或 批 式 运行 ,可 完全 编程 调查 命令 是 标准 软 
件 包 的 一 部 分 。 软 件 可 以 直接 读 取 ASCII 文件 和 Stata 格式 的 数据 文件 ， 其 他 文件 
形式 的 数据 则 可 以 通过 一 个 独立 软件 包 转换 为 Stata 格式 。 

(7) 价格 :一 次 性 购买 .升级 购买 可 选 , 优 惠 措 施 ; 学 术 机 构 优惠 ;全 套 优惠 ;学 
生 优惠 。 例 如 学 术 机 构 购买 一 个 单 用 户 版 本 价格 为 395 美元 (含有 关 资 料 )。 

《8) 联系 信息 : 

Stata Corporation, 702 University Drive East, College Station TX 77840 

800 - 782 - 8272 {U.S.),800 ~ 248 — 8272 (Canada),409 — 696 — 4600 
(Worldwide) 

Fax: 409 - 696 ~ 4601 

E - mail: stata@stata. com 

Web site: http: //www. stata, com 

3. SUDAAN 

SUDAAN 软件 由 美国 三 角 研 究 所 (Research Triangle Institute) 研制 。 

(1) 适用 的 抽样 设计 :适用 于 分 层 样 本 、 整 群 样本 或 多 阶段 样本 的 数据 ,适用 
于 不 等 概 样本 数据 ,有 放 回 样本 或 不 放 回 样 本 .对 于 任意 层 和 任意 阶 样本 都 可 进行 
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分 析 。 此 外 ,还 适用 于 对 同一 总 体 的 不 同 部 分 采用 不 同 抽样 方法 的 设计 。 

(2) 提供 的 估计 和 统计 分 析 : 包括 MULTILOG( 多 元 logistic 回归 )、 
REGRESS( 回 扫 ) .LOGISTIC(logistic 回归),SURVIVAL( 和 生存 分 析 )、 
CROSSTAB( 列 联 分 析 ) ,DESCRIPT( 描 述 统计 ) ,RATIO( 比 )。 此 外 ,EFFECT 语 句 
使 用 户 可 以 进行 回归 系数 的 对 比 ,以 及 单 效应 假设 检验 。 

《3) 方 益 估 计 主要 方法 :结合 使 用 泰勒 级 数 线性 化 方法 (对 回归 模型 的 GEE) 
和 适合 于 抽样 设计 的 方差 估计 公式 。 由 于 抽样 设计 能 被 程序 直接 指定 ,所 以 用 户 无 
需 编制 特殊 的 复制 权 数 (replicate weights) 。 也 支持 刀 切 法 (Jackknife ) 和 平衡 半 样 
本 方差 估计 方法 (BRR)。 

(4) 运行 环境 :Windows 3.1,MS-DOS, Windows 95，Windows NT 以 及 OS 人 /2。 

(5) 数据 要 求 ,对 变量 数 和 观测 值 数 量 都 无 限制 。 

(6) 软件 的 一 般 性 描述 :SUDAAN 用 的 是 类 似 SAS 的 语句 。 在 Sun/Solaris、 
Windows 95 或 NT 平台 下 ,SUDAAN 可 作为 SAS 的 一 个 程序 直接 调 出 。 在 其 他 平 
台 下 SUDAAN 也 能 读 SAS 文件 和 读 SPSS 文件 。 

(7) 价格 :对 于 PC 机 用 户 ,SUDAAN 既 可 以 分 年 度 购买 许可 证 ,也 可 一 次 性 
购买 学 术 机 构 PC 机 的 许可 证 年 度 费 为 每 用 户 50 美元 ~ 300 美元 。 大 学 的 PC 机 
许可 证 可 免费 发 给 学 生 用 于 学 习 目 的 。 政 府 和 商业 机 构 的 PC 机 许可 证 年 度 费 为 每 
用 户 30 美元 ~ 450 美元 ,一 次 性 购买 需要 995 美元 ,以 后 升级 会 有 优惠 .学 生 可 以 
用 295 美元 购买 一 个 两 年 的 许可 证 。 在 大 型 机 和 工作 站 上 使 用 SUDAAN, 亭 受 学 
术 机 构 的 优惠 。 

(8) 联系 信息 ， 

SUDAAN Product Coordinator, Research Triangle Institute,3040 Cornwallis 
Road, Research Triangle Park NC 27709 - 2194 

Telephone; 919 - 541 — 6602 

FAX: 919 - 541 ~ 7431 

E— mail: SUDAANG@rti. org 

URL: http: //www.rti.org/patents/sudaan/sudaan. htmil 

4. WesVar 

WesVar 软件 由 WesVar 公司 研制 。 

(1) 适用 的 抽样 设计 :该 软件 较 灵 活 ,适用 于 分 层 抽样 和 多 阶段 抽样 , 并 考 惠 
了 有 限 总 体 校正 因子 。 只 要 用 户 给 出 复制 权 数 就 能 估计 标准 差 。 如 果 复制 权 数 由 程 
序 白 身 产生 ,外 部 控制 变量 可 用 于 实施 事后 分 层 和 无 回答 加 权 调 整 , 此 外 ,还 可 以 
分 析 多 重 插 补 的 数据 集 。 
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(2) 提供 的 估计 和 统计 分 析 : 多 维 表 的 估计 (最 多 8 维 ) ,包括 总 量 \ 均 值 . 百 分 
比 , 独 立 性 检验 ,以 及 用 户 指定 变量 应 数 或 表单 元 估计 。 中 位 数 和 其 他 百分数 的 估 
计 。 回 归 分 析 , 包 括 线性 回归 和 logistic 回归 ,以 及 方差 分 析 。 参 数 估计 和 假设 检验 。 

{3) 方差 估计 的 主要 方法 :平衡 半 样本 法 、 六 切 法 和 其 他 样本 复制 法 (如 自助 
法 )。 

(4) 运行 环境 :Windows 95,98 或 NT。 

(5) 数据 要 求 :对 变量 数 和 观测 值 数量 都 无 限制 。 

(6) 软件 的 一 般 性 描述 :软件 在 Windows 环境 下 运行 ,用 户 可 通过 鼠标 指明 自 
己 的 要 求 ,不 需要 编程 。 

(7) 价格 :WesVar4.0 版 对 不 同 平台 不 同类 购买 者 .不同 的 以 往 许可 证 的 售 
价 不 同 。 单 用 户 售 价 为 350 美元 ~ 495 美元 ,多 用 户 售 价 为 2000 美 元 ~ 3 000 美 
元 。 功 能 有 限 的 WesVar2. 12 版 免费 ,并 可 从 因特网 下 载 。-Pemo 版 的 WesVar 也 可 
免费 下 载 ,学 生 版 售 价 为 25 美元 。 

(8) 联 系 信息 : 下 载 或 购买 程序 , 可 浏览 如 下 网 址 :http: 人//www. westat. 
Com/wesvar/ 

联系 地 址 : 

Westat, Inc. 1650 Research Blvd. Rockville, MD 20850 

Attn: WesVar, RE 33F 

Phone: (301) 294 ~ 2006 

FAX: (301) 294 - 2040 

E — mail: WesVar@westat. com 








三 ,方差 估计 软件 的 比较 与 选择 

以 上 介绍 了 几 种 主要 的 方差 分 析 软 件 。 它 们 都 可 以 进行 加 权 、 分 层 、 多 阶段 抽 
样 的 点 估计 和 方差 估计 ,因而 对 每 个 抽样 个 体 都 要 求 指定 权 数 、 层 数 和 抽样 单元 
等 ,但 是 并 非 上 述 所 有 软件 都 可 以 对 任意 抽样 设计 给 出 无 偏 的 方差 估计 。 例 如 ,只 
有 少数 软件 (如 SUDAAN) 可 以 直接 处 理 与 规模 按 比 例 的 无 放 回 抽取 初级 抽样 单 
元 的 多 阶段 分 层 抽样 设计 , 其 他 软件 则 需要 采用 最 终 抽样 单元 群 模型 (ultimate 
cluster sampling model) 解决 这 一 问题 。 所 谓 最 终 抽 样 单元 群 模型 ,就 是 将 初级 抽样 
单元 (PSU) 中 的 元 素 划 分 到 各 最 终 抽样 单元 群 中 ,然后 在 初级 抽样 单元 中 无 放 加 
抽取 最 终 抽样 单元 群 , 这 样 抽样 设计 在 进行 方差 估计 时 , 仅 计 算 初级 抽样 单元 之 间 
的 方差 , 却 忽略 了 各 阶段 内 的 选择 方差 。 采 用 最 终 抽样 单元 群 模型 的 软件 的 方差 估 
计 都 是 利用 这 种 方法 。 
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在 具体 选择 方差 分 析 软 件 时 ,应 主要 注意 以 下 几 方 面 的 问题 。 

1. 不 同 软件 提供 的 估计 和 统计 分 析 不 同 。 有 些 软件 只 能 计算 均值 ,总 量 ,比例 
等 ;有 些 软件 还 可 进行 logistic 回归 ;还 有 少数 软件 可 以 计算 生存 分 析 、 列 联 表 分 
析 , 广 义 估计 模型 ,特殊 的 比率 估计 的 方差 分 析 与 相关 检验 统计 量 。 

2. 不 同 软件 的 运行 环境 不 同 。 有 些 软件 要 在 DOS 下 运行 , 有 些 软件 在 
Windows 下 运行 .DOS 下 运行 和 Windows 下 运行 的 软件 又 都 可 以 分 为 两 大 类 , 即 下 
拉 菜单 式 (pull down menus) 和 命令 输入 式 (keyword input)。 比 如 PC CARP 和 
CLUSTERS 都 是 在 DOS 下 运行 的 命令 输入 式 软件 ,CENVAR 和 Epi Info 是 在 DOS 
下 运行 的 下 拉 菜单 式 软件 ,WesVar 是 在 Windows 下 运行 的 菜单 式 软件 , 而 
SUDAAN 既 可 以 菜单 操作 ,又 可 以 用 命令 操作 。 

3. 不 同 的 软件 采用 的 复杂 样本 方差 估计 方法 不 同 。 比 如 PC CARP 和 Stata 是 
用 泰勒 级 数 法 ,SUDAAN 可 以 使 用 泰勒 级 数 法 、 刀 切 法 .平衡 半 样本 法 ,WesVar 可 
采用 刀 切 法 .平衡 半 样本 法 。 
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PC CARP 软件 的 基本 用 法 


这 里 对 PC CARP 做 比较 详细 的 介绍 是 因为 PC CARP 的 功能 比较 齐全 ,能 够 
满足 通常 调查 项 目的 复杂 样本 方差 估计 的 需要 ,而 且 该 软件 的 价格 比较 便宜 ,操作 
简便 ,容易 掌握 ,是 国人 首选 的 方差 佑 计 软件 之 一 。 











一 .PC CARP 概述 

1. 用 途 

PC CARP 可 用 来 计算 总 量 .均值 .分 位 数 比率、 比率 的 差 以 及 列 联 表 中 频数 
的 估计 值 和 标准 差 ,并 可 以 进行 加 权 回 归公 式 的 估计 。 该 程序 是 为 多 阶段 分 层 样本 
设计 的 ,可 在 两 个 阶段 引进 限定 收 正 项 {finite correction term)。 

2. 功能 

PC CARP 的 主要 功能 见 附 表 2.1, 其 中 Y 表示 可 用 选项 对 大 多 数 估计 量 都 
提供 其 估计 值 .估计 值 的 标准 差 , 以 及 变异 系数 等 选项 ,在 不 同 的 情况 下 ,对 变量 个 
数 有 一 - 定 的 限制 ( 见 附 表 2.1) ,但 对 于 层 数 和 每 层 中 的 群 数 没有 限制 。 
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阳 表 2.1 PC CARP 功能 一 览 甫 








对 了 玉 基 征 隆 | 设计 奖 度 各 证 
ET 
总 量 估计 v | 最 多 50 个 变量 
| 不 需要 协 方差, 最 多 50 个 变量 
比 售 计 | YY | 需要 协 方差, 最 多 15 个 变量 
比率 的 差 Vv 最 多 15 个 变量 
分 层 分 析 
总 重 V | 最 多 30 个 变量 
均值 | 最 多 50 个 变量 
比例 | 最 多 50 个 变量 
子 总 体 分 析 
总 量 | 多 变量 分 层 
均值 V | 变量 分 层 
比例 ~ | 多 变量 分 导 
比率 | 多 变量 分 层 
其 他 分 析 
列 联 表 v 最 多 50 个 单元 ,比例 检验 
回归 最 多 50 个 变量 
假设 检验 . 残 郑 . 顶 测 信 
，。 | 多 变量 .经 验 分 布丁 数 
学 变量 | 分 位 数 .分 位 数 间距 交 














本 程序 可 针对 以 下 三 种 情况 计算 方差 :第 一 种 是 可 看 做 来 自 无 限 总 体 的 样本 。 
第 二 种 是 层 内 初级 抽样 单位 ( 群 ) 的 抽样 比 由 用 户 给 定 。 在 给 定 的 抽样 比 下 ,PC 
CARP 对 每 层 都 可 以 计算 带 有 限 总 体 校正 项 的 旋 差 ,第 三 种 是 针对 两 阶段 抽样 ,并 
要 求 用 户 提供 第 一 阶段 各 层 的 比例 和 权重 如 果 选 择 了 两 阶段 选项 ,所 用 的 方差 估 
计 公式 在 每 个 阶段 都 有 有 限 总 体 校正 项 。 此 时 程序 将 所 有 观测 单元 都 视 为 第 一 阶 
段 的 单位 ,并且 利 用 观测 单元 的 权重 计算 第 二 阶段 的 抽样 比 。 

PC CARP 有 合并 展 的 功能 ,即将 只 含 一 个 群 的 层 与 排 在 其 后 的 层 组 合成 一 个 
层 ,合并 后 将 形成 一 个 全 新 的 数据 集 。 

3, 数据 

PC CARP 的 输入 文件 主要 是 观测 数据 (向 量 ) 文件 ,其 内 容 包 括 控制 变量 和 分 
析 变 量 两 部 分 .此 外 还 可 以 有 一 个 抽样 比 文件 ,其 内 容 就 是 各 层 的 抽样 比 。 

常见 的 数据 源 就 是 调查 数据 ,数据 源 应 具有 层 标识 和 群 标识 ,而 且 每 个 观测 单 
元 都 有 彬 应 的 所 有 变量 值 ,通常 每 个 观测 单元 都 有 一 个 权重 ， 该 权重 是 被 抽 中 概率 
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的 倒数 ,PC CARP 接受 的 数据 应 是 按照 观测 单元 组 织 好 的 数据 ,此 外 还 包括 层 数 、 
群 数 和 权重 等 控制 变量 ,PC CARP 读 人 程序 的 数据 必须 按照 层 中 的 群 排序 。 正 是 
这 些 数 据 的 排列 顺序 定义 了 数据 的 层次 和 群 结构 。 

控制 变量 一 般 包括 层 标 识 、 群 标识 以 及 权重 (这 里 权重 是 被 抽 中 概率 的 倒数 ， 
需 输入 程序 ) 等 三 部 分 ,其 中 , 层 标 识 必须 是 标识 的 第 一 部 分 , 群 标 识 应 紧 跟 层 标 
识 后 面 ,而 且 两 者 应 都 是 整数 , 层 标识 和 群 标识 都 不 能 超过 10 位 数字 。 

如 果 每 个 观测 单元 被 抽 中 的 概率 都 相同 ,这 样 的 样本 是 自 加 权 的 , 它 不 需要 为 
每 个 观测 单元 输入 权重 。 可 接受 的 控制 变量 组 合 包 括 : (1) 层 、 群 和 权重 (完全 调 
查 );(2) 层 和 群 ( 自 加 权 );(3) 群 ( 群 的 随机 抽样 ); (4) 无 标识 (简单 随机 抽样 )。 

以 上 组 合 之 外 的 控制 变量 不 会 被 程序 接受 。 如 果 没 有 输入 权重 ,每 个 观测 单元 
都 被 分 配 一 个 值 为 1 的 权重 。 如 果 选 择 了 两 阶段 选项 ,就 必须 提供 权重 。 

如 果 分 析 中 需要 有 限 总 体 修正 项 ,那么 程序 就 要 求 给 出 第 一 阶段 的 抽样 比 。 抽 
样 比 必须 放 在 数据 文件 外 的 另 一 个 文件 中 ,并且 对 应 每 个 层 都 要 有 抽样 比 。 

数据 文件 的 格式 可 以 是 以 下 两 种 类 型 ;:(1) 有 向 列表 (list directed)。 文 件 中 的 
数字 由 空格 或 逗号 分 隔 开 。 一 个 观测 单元 的 数据 可 以 延续 到 下 一 行 ,但 每 个 新 观测 
单元 必须 始 于 一 个 新 行 。(2) 格式 化 (formatted)。 在 这 种 情况 下 ,PC CARP 需要 一 
个 FORTRAN 格式 ,一 个 观测 单元 的 数据 可 以 延续 到 下 一 行 ,但 每 个 新 观测 单元 
必须 始 于 一 个 新 行 。 如 果 数 据 存在 多 个 文件 中 ,每 个 文件 必须 有 相 司 的 格式 ,如果 
数据 集 包括 层 标识 和 (或 ) 群 标识 ,它们 必须 是 整数 形式 (1) ,而 县 按 层 , 随 后 是 群 
的 顺序 排列 其 他 所 有 变量 ,包括 权重 ,必须 按照 一 种 实数 格式 (F,D 或 G) 来 读 取 
《请 参见 后 面 案例 )。 

4. 程序 用 法 说 明 

PC CARP 采用 菜单 驱动 ,而 且 大 多 数 菜单 都 是 自 解释 的 。 第 一 组 菜单 称 为 “ 问 
题 定义 "(problem specification) ,主要 用 来 定义 所 要 分 析 的 变量 ,对 这 些 变 量 命名 ， 
并 且 将 数据 集 及 其 相关 标识 提交 给 程序 。 菜单 的 第 二 部 分 称 为 “分 析 定 
义 ”(analysis specification) ,主要 是 用 来 选 树 要 执行 的 分 析 类 型 ,识别 参与 分 析 的 变 
量 ,并 且 输 入 分 析 所 需 的 其 他 指令 。 

问题 说 明 阶段 分 为 5 个 菜单 ,分 别 是 问题 说 明 、 变 量 命名 .数据 类 型 数据 获取 
及 数据 输出 ,每 个 菜单 可 能 有 多 个 屏幕 显示 。 

在 问题 说 明 的 某 些 位 置 , 可 以 输入 G 来 表示 “Go back”, 使 得 用 户 回 到 先行 菜 
单 ,并 使 用 户 能 够 在 不 终止 程序 执行 的 情况 下 进行 一 些 改动 。 需要 注意 的 是 ， 
Go back 操作 使 得 用 户 回 到 先行 菜单 ,而 非 先 前 显示 屏幕 ,因为 先行 菜单 可 能 不 只 
一 个 显示 屏幕 。 
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如 果 用 户 并 不 清楚 系统 要 求 的 信息 ,可 输入 日 来 寻求 帮助 。 

输出 可 以 直接 输出 到 打印 机 ,或 产生 一 个 输出 文件 ,或 两 个 选项 都 选 .输出 结 
果 可 分 为 两 个 部 分 :第 一 部 分 是 在 问题 定义 阶段 后 就 获得 的 ,是 由 用 户 给 定 的 数据 
的 概览 ,第 二 部 分 包括 各 指定 分 析 的 统计 结果 。 结 束 一 次 “问题 定义 ”阶段 后 ,可 执 
行 多 次 分 析 。 输 出 根据 分 析 类 型 的 不 同 而 不 同 ,而 且 输 出 在 很 大 程度 上 是 自 解释 的 
(请 参见 后 面 案 鲍 )。 


二 、 案 例 应 用 

以 革 两 阶段 分 层 调查 为 例 ,假如 第 -阶段 按照 行政 区 域 分 层 , 共 分 为 4 层 ,各 
层 (strata) 代表 特定 的 行政 区 划 ,在 各 行政 区 划 内 抽取 居委会 ,这 里 的 居委会 就 称 
为 群 (clusters) , 共 14 个 群 ;第 二 阶段 观测 单元 则 是 居委会 内 的 人 , 共 21 个 。 数 据 见 
附 表 2.2。 

1. 总 数 、 均 值 .比率 .比率 差分 

根据 PC CARP 的 要 求 , 数据 已 依次 按照 层 和 群 排序 。 它 的 格式 是 (2I2， 
6F4.0)。 层 次 1,2,3,4 的 比率 分 别 是 0.10,0.05,0.20 和 0.25。 这 些 比率 在 例子 的 
文件 rates1.dat 中 。 这 些 比率 的 格式 是 (F4.2)。 














附 表 2.2 案例 数据 
层 (stratum) | 群 (duster) | 权 妆 (weighy | 冯 | YW WH | 6 
1 1 10 10 11 2 1 1 
1 2 10 11 13 2 2 2 
1 3 10 12 10 1 3 1 
1 4 10 8 7 2 1 1 
1 5 10 6 5 1 2 1 
1 5 10 4 9 1 3 2 
2 1 20 3 6 1 2 1 
2 2 20 6 10 2 1 1 
2 3 20 14 12 2 1 1 
2 4 20 6 4 1 2 1 
3 1 5 12 15 3 4 1 


























按 Enrer 键 进入 “变量 命名 "屏幕 ,如 附 图 2.4 所 示 。 变 量 命名 有 三 种 方式 可 选 

用 : 
D 为 缺 省 值 (default), 该 方法 采用 程序 缺 省 变量 名 ,VBLE01, VBLE02,…， 

VBLE tn, 这 里 tn 是 所 有 输入 变量 的 总 数 。 

键入 K, 即 键盘 输入 变量 名 ,程序 将 提示 用 户 输入 变量 名 。 

键入 下 , 即 从 磁盘 文件 中 输入 变量 名 ,程序 将 提示 用 户 输入 文 件 名。 该 文件 中 
每 个 变量 名 应 该 单独 一 行 ,每 行 都 不 能 超过 8 个 字符 。 

本 例 中 选择 用 键盘 输入 变量 名 ,所 以 键 人 开 , 如 附 图 2.4 所 示 。 





附 图 2.5 


按 Enter 键 后 , 如 附 图 2.5 所 示 , 程序 询问 是 否 需 要 截 此 变量 (intercept 
variable) , 缺 省 回答 是 Y。 该 变量 通常 是 为 满足 分 析 的 需要 ,如 果 拿 不 定 主意 就 先 输 
人 Y。 

















本 例 中 应 分 析 所 需 , 键 和 人 YY- 在 加 入 截 距 变量 后 ,变化 后 的 数据 集 如 附 表 2.3 
所 示 ,程序 自动 加 入 取 值 为 1 的 Intercepr 变量 。 注 意 , 截 距 变量 被 放 在 分 析 变 量 中 
的 第 一 位 。 
附 表 2.3 加 入 截 距 变 量 后 数据 

siatum | chaster | weight | Intercept | | YB | 到 再] v 

1 10 1 10 11 2 1 1 

1 2 10 1 1 13 2 2 

1 3 10 1 访 10 1 3 1 

1 4 10 | 1 8 7 2 1 1 

1 过 10 | 1 6 吉 1 1 

1 5 10 1 4 9 1 3 2 
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续 脐 表 



































stratum | cluster | woght | Intercept | Y2 Y3 Y4 5 Y6 
这 Pi 6 1 1 
2 2 20 1 6 10 2 1 1 
2 3 20 1 14 12 2 1 1 
2 地 20 1 6 4 1 : + 
3 1 5 t 12 15 3 4 1 
3 1 5 1 4 3 4 1 
3 2 3 1 2 3 3 4 1 
3 5 1 3 1 3 4 1 
3 2 5 1 5 6 3 4 
4 1 4 1 9 2 1 1 
4 1 4 1 2 1 2 1 
4 4 1 10 12 和 1 1 
4 2 4 1 15 14 2 2 
4 六 4 1 5 8 1 3 2 
4 3 | +4 1 7 1 2 1 
按 Enter 键 后 ,就 显示 附 图 2.6, 要求 输 和 人 分析 变量 名 。JNTERCEPT 总 是 PC 











CARP 的 第 一 位 因此 ,如 果 用 数字 来 命名 建议 从 数字 “2” 用 作 Intercept 后 的 第 一 
个 变量 的 名 字 。 每 个 变量 名 都 不 能 多 于 8 个 字符 。 在 输入 一 个 变量 名 之 后 , 按 回 车 
键 会 使 光标 移动 到 下 一 个 名 字 的 正确 位 置 。 如 果 不 小 心 输 人 错误 ,可 输入 G, 回 到 
上 一 个 名 字 更 改 。 附 图 2.6 显示 输 人 变量 名 后 的 屏幕 。 
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在 第 6 个 名 字 ( 也 就 是 我 们 输 和 人 的 第 5 个 变量 名 ) 后 按 Enter 键 ,出现 附 图 2.7。 


Prohlen Spocif ication 

Type of Data 
YF MD in 0 caae to spocify whethor the fallaving itens will be 
Stratun ID.-¥ Cluster ID..¥ Veight...¥ Stratun Sanpling rates...Y 


下 





当 人 
ous HEMICG> 





附 图 2.7 


附 图 2.7 是 “数据 类 型 " 菜单 ,用 于 识别 抽样 设计 的 有 关 信 息 。 层 标识 、 群 标识 
以 及 权 是 用 米 识 别 每 个 观测 的 项 目 。 可 接受 的 组 合 有 :(1) 层次 、 群 和 权重 (完全 调 
但 );(2) 层次 和 群 ( 自 加 权 );(3) 群 ( 群 的 随机 抽样 );(4) 巨 标识 (简单 随机 抽样 )。 

程序 不 接受 任何 其 他 的 组 合 。 当 没有 提供 权重 时 ,每 个 观测 的 权重 都 被 设置 为 
1。 如 果 打 算 选 择 两 阶段 选项 ,就 必须 提供 层 标识 、 群 标识 ,权重 以 及 层 抽样 比 , 本 例 
中 使 用 所 有 的 缺 省 值 Y。 因 此 ,对 四 个 项 目 都 按 Enter 键 ,出 现 屏幕 询问 是 否 选 择 两 
阶段 抽样 .本 例 中 不 需要 ,所 以 输入 缺 省 值 N, 见 附 图 2.8。 按 Enter 键 后 ,屏幕 询问 
是 否 有 合并 层 的 问题 ,由 于 本 例 中 已 确定 每 个 层 都 至 少 含有 两 个 群 ,所 以 不 需要 进 
行 合并 , 输 人 缺 省 置 N。 











附 图 2.8 
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按 Enter 键 后 ,PC CARP 显示 第 一 个 观测 单元 的 数据 , 以便 审核 有 无 格式 错 
误 , 见 附 图 2.11, 并 询问 是 否 继续 。 审 核 无 误 后 ,输入 Yo 如 果 输 入 N, 程 序 将 中 止 。 


本 例 输入 
按 Enter 键 后 ,屏幕 询问 是 否 还 有 其 他 数据 文件 ,本 例 无 其 他 数据 文件 ,输入 








No 





you want to continus? CEnter ¥ or Ny.-.¥ 





附 图 2.11 


按 Enter 键 后 ,屏幕 询问 抽样 比 文件 是 否 为 格式 化 形式 ?本 例 输入 Y。 

按 Enter 键 后 ,屏幕 询问 抽样 比 数据 格式 ,输入 (F4.2)。 抽 样 比 文件 中 抽样 比 

个 数 要 对 应 层 数 , 即 每 层 都 有 且 只 有 一 个 抽样 比 , 见 附 图 2.12。 如 果 比 例 数目 偏 多 

或 偏 少 ,程序 都 将 中 止 。 
[ 

















0.10 
0.05 
0.20 
0.25 








附 图 2.12 ”抽样 比 文件 RATES1.dat 文件 格式 


按 Enter 键 后 ,屏幕 询问 抽样 比 文件 名 和 路 径 。 输 入 RATESI .DAT。 

按 Enter 键 后 ,进入 “数据 输出 ” 菜单。 屏幕 询问 输出 形式 ,可 以 选择 输出 到 打 
印 机 (PRINTER) ,屏幕 (SCREEN) ,磁盘 文件 (DISK FILE)。 用 户 在 所 希望 的 输出 
选项 后 输入 Y, 在 不 需要 的 输出 选项 后 输入 N。 要 注意 的 是 ,屏幕 显示 非常 快 , 显 
不 结果 也 不 便 浏 览 , 建 议 在 打印 和 磁盘 文件 中 至 少 选择 一 种 ,本 例 中 选择 了 屏幕 和 
磁盘 文件 格式 , 见 附 图 2.13。 
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Prollem gpocification 
Output pestination 


Outpat fF sh nalyais js routed to HER Y gr ND 
pant dorado Pe 





‘esponses includes 





附 图 2.13 


按 Enter 键 后 ,屏幕 要 求 淘 问 输出 文件 名 和 路 径 ,输入 OUTPUT.DAT。 

按 Enter 键 后 ,屏幕 显示 对 数据 的 定义 说 明 , 其 内 容 见 附 图 2,14, 至 此 ,问题 定 
义 阶段 结束 ,PC CARP 已 获得 它 所 需 的 关于 数据 和 设计 的 所 有 信息 ,可 以 进 人 数 
据 分 析 阶 段 。 








PC CARP Version 1.0 Iowa State University 
Date:9/72072001 Time:11:19 


Problem Identification 


tals, Means, Ratios 


Number input is 5 
Intercept generated: YES 
Sample Design Information 
Stratum ID 
Cluster ID 
Weight 
Input Date 
1. 1ABLE1.DAT 
Input Data Format 
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List direeted 
(2712,6F4.0) 
Sampling Rates 
RATESI .DAT 
(F4.2) 
Output to dsk file: OUTPUT. DAT 





附 图 2.14 ”问题 定义 完成 后 输出 的 结果 


“数据 分 析 ” 莱 单列 出 了 各 类 分 析 选 项 , 见 附 图 2.15。 本 例 中 ,我 们 希望 估计 总 
量 、 比 率 和 比率 的 差 。 





Mnalysis Specification 


Select Ti co honeyed Sype of enolynies 
2 eI ne i se key: 


AUATLABLE ANALYSES 


-Tora ebpopedats 
下 Wt ds 
3 ee oF Two 人 aoe 


Et 二 二 tel | 
En petione 至 i lone 
2. SubpepulatiEn "totais ost 
My the nemeric 1 of dosirod analosis 

















附 图 2.15 

首先 进行 总 量 分 析 , 输 入 01, 按 Enter 键 后 ,程序 出 现 两 个 问题 询问 是 否 需要 
估计 协 方差 矩阵 和 设计 效应 , 木 例 对 这 两 个 问题 都 回答 Y, 见 附 图 2.16。 

按 Enter 键 后 ,程序 要 求 选 择 所 分 析 变 量 见 附 图 2.17。 菜 单 上 已 列 出 可 供 选 择 
的 变量 名 ,PC CARP 总 是 将 Intercept 变量 放 企 首 位 ,并 指定 其 为 第 一 选择 变量 ,这 
里 我 们 要 对 Y2,Y3, Y4 进行 总 量 分 析 , 因 此 依次 输入 各 变量 前 序号 02,03,04。 

选择 了 所 需 的 所 有 变量 后 ,输入 Y 结束 变量 选择 。 出 现 桨 单 询问 是 否 执行 分 
析 , 见 附 图 2. 18。 如 果 输 入 N, 则 返回 “数据 分 析 " 菜 单 ,重新 选择 ;如 果 输 入 Y, 则 程 
序 开始 进行 分 析 ,并 输出 分 析 结 果 , 见 附 图 2.19.。 对 应 各 分 析 变 量 , 程 序 给 出 其 总 
量 估计 (cstimate)、 估 计 的 标准 误 (S.E. )、 变 异 系数 (C.V.)、 设 计 效 应 (deff) ,以 及 
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附 图 2.19 


程序 返 加 "数据 分 析 " 菜单 ,我 们 下 一 步 进行 比率 估计 。 输 入 02 后 ,同样 选择 进 
行 协 方法 估计 和 计算 设计 效应 , 见 附 图 2.20。 








附 图 2.20 
按 Enter 键 后 ,程序 要 求 选择 所 分 析 变 量 , 见 附 图 2.21。 要 估计 一 个 比率 ,需要 














指定 两 个 变量 :分 子 变 量 (numerator) 和 分 母 变量 (denominator)。 如 果 分 母 变量 指 
定 为 截 中 变量 (intercept) ,比率 估计 也 可 以 进行 均值 估计 。 本 例 中 选择 了 4 个 比率 ， 
见 附 图 2.21 ,分 别 为 : 
Y2 Y3 YY5 
intercept ' Intercept’ Y3' Y3° 
程序 计算 结果 见 附 图 2.22。 因 为 选择 了 4 个 比率 , 协 方法 矩阵 为 4x4 矩 阵 , 比 
只 Tmt 和 Tae 的 估计 就 相当 于 对 Y2 和 3 的 均值 估计 , 见 附 图 2.22 和 附 
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附 图 2.23 


计算 结束 后 又 返回 “数据 分 析 ” 菜单 ,如 不 再 继续 进行 分 析 , 可 输入 14, 结束 
PC CARP。 





附 图 2.24 


2. 分 层 估 计 

利用 附 表 2.2 中 的 数据 进行 分 层 估计 。 关 于 问题 定义 阶段 的 操作 同 前 ,我 们 
直接 从 “数据 分 析 ” 阶段 开始 .在 数据 分 析 菜 单 中 ,选择 04, 即 分 层 总 量 分 析 , 并 输 
和 人 Y 要 求 计算 设计 效应 。 

进入 选择 变量 的 菜单 , 见 附 图 2.25, 输 入 分 析 变 量 的 编号 02 和 03, 输 入 Y 结 
束 选择 后 输出 结果 , 见 附 图 2.26。 

分 析 结果 显示 见 附 图 2.26。 各 层 内 , 对 应 各 分 析 变 量 , 程序 给 出 其 总 量 合计 
(estimate) ,估计 的 标准 误 (S.E. ) ,变异 系数 (C.V. ) ,设计 效应 (deff)。 第 二 层 中 为 
简单 随机 抽样 , 故 deyf 都 为 1、 
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附 图 2.25 


除 分 层 总 量 估 计 外 ,用 户 还 可 以 在 “数据 分 析 ” 菜 单 中 选择 05 或 06 ,进行 层 内 
均值 或 比例 估计 :但 PC CARP 无 法 直接 进行 层 内 比率 估计 ,如 果 希 望 进行 层 内 比 
率 估计 ,可 以 将 层 标识 复制 为 一 个 实数 分 析 变量 ,然后 利用 该 变量 作为 分 层 变 量 进 
行 子 总 体 的 比率 分 析 。 














附 图 2.26 


3. 子 总 体 估计 

数据 格式 见 附 表 2.4, 该 数据 只 是 在 附 表 2.2 数据 的 基础 上 增加 了 2 个 变量 。 
假设 后 5 个 变量 为 分 层 变量 ,前 两 个 变量 为 因 变 量 ,也 称 为 分 析 变 量 。 要 注意 ,分 层 
变量 取 值 不 能 为 负 , 分 析 变 量 的 取 值 可 以 取 负 值 。 

该 数据 也 是 附 在 PC CARP 程序 中 的 ,该 文件 名 为 TABLE3.DAT。 数 据 格式 为 
(212,8F4.0) ,各 层次 1,2,3,4 的 抽样 比 仍 为 是 0.10,0.05,0.20 和 0.25, 该 文件 仍 
为 ratesl .dat ,这 些 比率 的 格式 是 (F4.2)。 
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关于 数据 的 定义 过 程 同 前 ,不 再 著述 ,问题 定义 结果 见 附 图 2.27。 





Date:9/2072001 


Problem Identification 





Example: SUBPOPULATION ESTIMATES 


Variables 


Number input is 7 
Intercept generated: YES 
Sample Design Infonnation 

Stratum ID 
Cluster ID 
Weight 
[Input Date 


1. TABLE3.DAT 


List directed 
(212,8F4.0) 
Sampling Rates 


{(F4.2) 
Outpot to disk fle: OUTPUT.DAT 





PC CARP Version 1.0 lowa State University 


Time:13:50 








附 图 2,27 ”问题 定义 完成 后 输出 结果 


问题 定义 结束 后 ,进入 数据 分 析 阶 段 。 进 入“ 数据 分 析 " 菜单 后 ,输入 08 选择 子 


总 体 均值 估计 ,同样 选择 计算 设计 效应 。 


进入 变 重 选择 的 菜单 中 ,程序 首先 要 求 定义 分 层 变量 , 见 附 | 





图 














2.28。 本 例 计划 


选用 C4 和 C5 交叉 划分 总 体 。 这 里 , 截 虐 变量 (intercept) 也 可 以 作为 分 类 变量 ,如 仅 











选择 截取 变量 为 分 类 变量 , 则 其 结果 等 同 于 选择 总 体 均值 分 析 。 
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首先 定义 第 一 个 分 层 变 量 ( 见 附 图 2.28): 









Variable Speeification 
Tyee oo fps tn for 区 orehe7og alos ole 
村 3 re nd Re 
Re Slee et Toss “BD. Det fe sar 生生 <- 


2 旦 38 
要 i 38 3 


Classification Uariable Selection 1 


输入 变量 编号 04; 

因 是 第 一 个 分 类 变量 ,不 与 上 一 个 变量 交叉 , “Crossed wiyh previous variable?” 
回答 N ,该 变量 最 大 层 数 为 3; 

还 有 其 他 分 层 变 量 ,“Last Class Variable", 故 输入 N。 

然后 定义 第 二 个 分 层 变 量 , 见 附 图 2.29: 








Variable Specification 


in the variable specifications Eor. the chosen enalysic. ss 
etion 


i 

do 
0 
1 INIERCPT 2 92 233 

: i 38 19 


Claseification Variable Seleetion 2 


生生 








附 图 2.29 
输入 变量 编号 05; 
与 上 一 个 变量 交叉 ,“Crossed wiyh previous variable?” 回答 Y; 
该 变量 最 大 层 数 为 4; 














不 再 输 人 其 他 分 层 变量 “Last Class Variable" , 故 输入 Y。 
然后 按照 程序 的 要 求 选择 分 析 变 量 , 见 附 图 2.30。 
程序 分 析 结 果 见 附 图 2.31。 由 于 观察 单元 有 限 , 许 多 子 总 体内 没有 观察 单元 ， 
估计 值 为 空 。 
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Aahle. -82 
附 图 2.30 

SUBPOPULATION MEANS 

Dependent variable is Y2 

Category Estimate SE CV. DEFF 

Number of observations in subpopulation is 0 

CG = 1M00 Cc = 1.000 


玉 
Number of observations in subpopulation is 5 
C4 = 1000C = 2.000 
5.103 45D + 00 8.757 55001 1.716 0D01 2.172 5D+ 00 
Number of observations in subpopulation is 3 
C = 1000C = 3.000 
7.500 00D + 00 2.537 48D + 00 3.383 3D01 1.261 5D + 00 
Number of observations in subpopulation is0 
0G = 1000CG = 4.000 
类 和 
Number of observations in subpopulation js 6 
C = 2.000 Cs = 10000 


9.647 D6D+ 00 1.892 85D+00 1.962 1DUI 2.919 6D + 的 


Number of observations in subpopulation is 2 
C4 = 2.0000 C5 = 2.0000 
1.214 29D + Of 1.048 59D+00 8.635 5D02 5.6122D01 
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Number of observations in subpopulation is 0 
C4 = 2000c = 3.000 
四 
Number of observations in subpopulation is 0 
C4 = 2.0000 C5 =- 4.0000 
天 
Number of observations in subpopulation is 0 
C4 = 3.000 C = 1.0000 
天 人 
Number of observations in subpopulation is 0 
C4 = 3.000 C5 = 2.0000 
CE 
Number of observations in subpopulation is0 
CH = 3000C = 3.000 
六 
Number of cbservations in subpopulation is 0 
C4 = 3.000 C5 = 4.0000 
4.600 00D + 00 1.359 53D + 00 2.955 5D01 3.562 8D01 











附 图 2.31 ”于 总 体 分 析 均 值 估计 结果 


三 .PC CARP 软件 对 缺失 数据 的 处 理 

1. PRE CARP 概述 

PC CARP 只 能 对 完整 的 数据 集 进行 处 理 ,但 实际 的 调查 数据 中 经 常 出 现 数据 
缺失 现象 ,对 这 种 不 完全 数据 集 ,PC CARP 提供 了 PRE CARP 程序 对 缺失 值 进行 
处 理 。PRE CARP 可 以 用 热 卡 插 补 法 (hot deck imputation) 对 缺失 数据 进行 插 补 ， 
这 样 数 据 集 就 变 为 可 处 理 的 完整 数据 集 。 

PRE CARP 使 用 的 热 卡 揪 补 法 是 用 缺失 值 的 前 一 个 回答 值 蔡 代 缺失 值 ,因此 
数据 的 排列 顺序 对 缺失 值 的 替代 数据 影响 非常 大 。 在 进行 插 补 前 ,一 定 要 对 数据 进 
行 合理 排序 ,当然 ,这 种 排序 的 数据 集 不 一 定 满足 PC CARP 的 按 层 内 群 排序 的 要 
求 ,因此 在 输入 PC CARP 前 可 能 还 需要 再 次 排序 。 

HOTDECK 法 可 以 用 于 总 数据 的 插 补 ,也 可 用 于 层 内 插 补 其 原理 是 在 各 层 内 
部 用 缺失 值 的 前 一 个 回答 值 替 代 缺 失 值 - 一 般 分 类 变量 的 层 数 不 要 超过 10。 不 论 
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是 对 分 层 插 补 还 是 总 插 补 ,PRE CARP 最 终 都 要 记录 插 补 的 缺失 值 数量 。 
PC CARP 对 播 补 后 的 数据 和 一 般 原始 数据 的 方差 估计 方法 相同 .要 考虑 插 补 
对 方差 估计 的 影响 ,有 一 个 粗略 的 处 理 方法 就 是 将 PC CARP 估 计 的 方差 乘 以 一 个 
(no + nm) Lo+3aw) 
式 中 ,no 为 观察 值 数量 ; nw 为 缺失 值 数量 -假设 no mr。 
比如 对 于 简单 随机 抽样 ,对 完整 数据 集 的 方差 估计 公式 为 : 
{no + nm) ls? 

由 于 该 方差 估计 是 基于 no + nw 个 数据 ,其 中 包括 nw 个 缺失 数量 的 插 补 值 。 

因此 需要 对 方差 估计 结果 进行 调整 ,最 终 方差 估计 会 变 为 : 
(no + nm) (no + 2nm + nm)s? 

此 外 ,PRE CARP 可 以 对 所 有 带 缺 失 值 的 原始 变量 都 生成 一 个 指示 变量 ,如 果 
变量 值 为 观察 数据 , 则 其 取 值 为 1; 如 果 变 量 值 为 缺失 插 补 值 , 则 取 值 为 零 。 如 果 将 
该 指数 变量 作为 分 层 变 量 用 于 PC CARP, 就 可 以 直接 对 原始 观测 值 进行 估计 了 。 

2. 案例 

不 完全 数据 集 见 附 表 2.5, 数 据 格式 为 (22,6F4.0)。 对 于 Y2, 缺 失 值 的 代码 是 
99。 对 于 Y3 ,缺失 值 的 代码 是 88。 对 于 C6 ,缺失 值 的 代码 是 M。 

















附 融 2.5 缺失 数据 集 案例 数据 

stratum duster | weight | |e]| 
1 10 99 11 归 1 1 
1 2 10 11 13 2 a 2 
1 3 10 12 10 1 3 M 
1 4 10 5 7 2 1 M 
1 5 10 6 1 汪 1 
1 5 10 4 88 1 3 2 
1 20 3 6 1 2 1 
2 2 20 6 10 2 1 1 
六 3 20 14 12 1 . 
要 4 20 6 4 1 2 1 
3 1 5 %9 15 3 4 M 
3 1 5 1 88 3 4 M 
3 2 5 2 3 3 4 1 
3 交 3 1 3 4 1 
:a | 5 6 3 4 2 























Ey 
包 








stratum cluster | weight a G4 | 1 
4 1 9 家 1 1 
4 1 4 ¥ + 1 2 x 
4 2 4 ' 上 2 2 1 1 
4 4 1 1 1 2 2 2 
4 3 | 4 5 | 8 1 3 | M 
4 3 4 7 88 De A 

















运行 PRE CARP 后 , 首 屏幕 显示 是 该 程序 的 介绍 ,如 
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图 2.32 所 示 。 
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附 图 2.32 





按 Enter 键 进 人 附 图 2.33 ,程序 询问 需要 处 理 的 文件 名 { 含 路 径 ) 与 输出 结果 











文件 名 ( 含 路 径 ) 。 


Data Pile Specification 


RD data Files used fn Pre-Carp IST be fornatted 


"data File specification DA 
Mos asda eH spee te Rs oo MEARERG TBE 











附 图 2.33 
否 达 有 其 他 数据 文件 .本 例 回 答 N, 见 附 图 2.34。 


按 Enter 键 后 ,程序 询问 是 
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附 图 2.36。 程 序 对 每 个 含 缺失 值 的 变量 都 会 生成 一 个 新 变量 ,其 取 值 为 1, 就 说 明 
相应 变量 值 为 真实 观察 值 ; 取 值 为 零 , 就 说 明 相应 变量 值 缺失 。 

按 Enter 键 后 ,程序 要 求 对 缺失 值 进 行 说 明 , 见 附 图 2.37。 程 序 要 求 标明 含有 
缺失 值 的 数据 ,以 及 缺失 值 的 代码 。 
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附 图 2.37 


Var Flds 行 是 用 于 标明 含有 缺失 值 的 变量 , 见 附 图 2.38。 由 于 案例 数据 格式 为 
《212,6F4.0), 前 8 列 分 别 层 数 , 群 数 和 权重 ,第 一 个 含有 缺失 值 的 变量 Y2 从 第 9 列 
到 第 12 列 ,因此 第 9 列 输入 B, 第 12 列 输入 E; 第 二 个 含有 缺失 值 的 变量 Y3 从 第 13 
列 到 第 16 列 ,因此 第 13 列 输入 B, 第 16 列 输入 E; 第 三 个 含有 缺失 值 的 变量 C3 从 
第 25 列 到 第 28 列 ,因此 第 25 列 输入 B, 第 28 列 输入 下 .指定 完 缺 失 值 的 区 域 后 , 答 
入 下 ,然后 按 End 键 ,光标 移 至 下 一 行 。 





























附 图 2.38 


MYV Codes 行 是 用 于 标明 缺失 值 的 代码 , 见 附 图 2.38, Y2 缺失 值 的 代码 为 99， 
则 在 第 9 列 到 第 12 列 输入 99; Y3 缺 失 值 的 代码 为 88. 则 在 第 13 列 到 第 16 列 输入 
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88;C3 的 缺失 值 代码 为 M, 则 在 第 25 列 到 第 28 列 输入 M- 输 入 F, 然 后 按 End 键 。 
程序 询问 每 个 记录 覆盖 的 列 数 ,本 例 中 输 人 28 ,然后 按 Enter 键 。 

因为 前 而 选择 的 是 层 内 插 补 ,程序 紧 接 着 会 询问 分 层 变量 的 开始 行列 数 终止 
行列 数 ,本 例 中 作为 分 层 变量 的 C4, 始 于 第 1 行 的 17 列 ,终止 于 第 1 行 的 20 列 , 见 
附 图 2.39。, 然 后 屏幕 会 询问 以 及 分 层 变量 的 层 数 ,本 例 中 分 层 变量 C4 的 层 数 为 
3, 见 附 岁 2.40。 








附 图 2.39 





附 图 2.40 


处 理 数据 过 程 中 ,PRE CARP 要 求 用 户 依次 输入 各 层 信号 (1.2. 和 3.), 插 补 
后 的 结果 见 附 图 2.41。 原 数据 中 的 缺失 值 已 被 插 补 值 代替 ,对 每 个 观测 单元 都 多 
出 一 个 三 维 的 指示 向 量 ,比如 第 一 个 观测 单元 的 指示 向 量 值 为 (0 1 1) ,说 明 该 观 
测 单元 的 Y2 值 是 插 补 值 ,而 Y3 和 C6 的 值 为 原始 值 该 数据 集中 每 个 观测 单元 的 
记录 为 2 行 ,其 数据 格式 为 (212,6F4.0,/,3F2.0) 其 中 的 /表示 后 面 3 个 2 位 的 指 
示 变 量 在 第 二 行 。 
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1110.11.11. 2. 


O11 
1210.11.13. 2. 
111 
1310.12.10. 1. 
110 
1410.11,. 7. 2. 
010 
1510. 6. $. 1. 
111 
1510. 4. 3. 1. 
101 
2120. 3. 6, 1. 
111 
2220. 6.10. 2. 
111 
2320.14.12. 2. 
111 
2420. 6. 4. 1. 
111 
31 $5. 1.15, 3. 
010 
31 5. 1.15,. 3. 
100 
32 5. 2. 3. 3. 
i111 
32 5. 3. 1. 3. 
111 
32 5. 5. 6, 3. 
111 
41 4. 9. 7. 2. 
111 


41 4. 7. 4. 1. 
111 














42 4.10.12，2. 
111 
42 4.15.14. 2. 
111 


43 4, 5, 8. 1. 


110 


43 4. 7, 8. 1. 


110 


1. 


2. 


2, 


2. 


1. 











附 图 2.41 ” 播 朴 后 数据 
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03 47 43 73 86 
97 74 24 67 62 
16 76 62 27 66 
12 56 85 99 26 
55 59 $6 35 64 


16 22 77 94 39 
84 42 17 53 31 
62 01 63 78 59 
33 21 12 34 29 
57 60 86 32 44 


18 18 07 92 45 

26 62 38 97 75 

23 42 40 64 74 

52 36 28 19 95 

37 85 94 35 12 
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36 96 47 36 61 
42 81 14 57 20 
56 50 26 71 07 
96 96 68 27 31 
38 54 82 46 22 


49 54 43 54 82 
57 24 55 06 88 
1695 55 67 19 
78 64 56 07 82 
09 47 27 96 54 


4417165809 
84 16 07 44 99 
82 97 77 77 81 
350 92 26 11 97 
83 39 50 08 30 


附录 3 


a a 


随机 数 表 


46 98 63 71 62 
42 53 32 37 32 
32 90 79 78 53 
0503729315 
316243099%0 


17 37 93 23 78 
77 04 74 47 67 
98 10 50 71 75 
5242074438 
49 17 46 09 62 


79 83 86 19 62 
83 11 46 32 24 
07 45 32 14 08 
00 56 76 31 38 
42 34 07 96 88 





3326 168045 
27 07 36 07 $1 
13 55 38 58 59 
57 12 101421 
06 18 44 32 53 


87 35 20 96 43 
21 76 33 50 25 
12 86 73 58 07 
15 51 00 13 42 
90 52 84 7727 


06 76 50 03 10 
20 14 85 88 45 
32 98 94 07 72 
80 22 02 53 53 
54 42 06 87 98 


I 


60 11 14 10 95 
24 51 79 89 73 
88 97 54 14 10 
88 26 49 81 76 
23 83 01 30 30 


84 26 34 91 64 
83 92 12 06 76 
44 39 52 38 79 
99 66 02 79 54 
08 02 73 43 28 


55 23 64 05 05 
10 93 72 88 71 
93 85 79 10 75 
86 60 42 04 53 
35 85 29 48 39 





7029171213 
56 62 18 37 35 
99 49 57 22 77 
16 08 15 04 72 
31 16 93 32 43 


68 34 30 13 70 
74 57 25 65 76 
27 42 37 86 53 
00 39 68 29 61 
29 94 98 94 24 


16 90 82 66 59 
11 27 94 75 06 
35 24 10 16 20 
38 23 16 86 38 
31 96 25 91 47 


00 07 40 67 14 
14 90 84 45 11 
68 05 SI 18 00 
20 46 78 73 90 
64 19 58 97 79 


05 26 93 70 60 
07 97 10 88 23 
68 71 86 85 82 
26 99 61 65 53 
14 65 52 68 75 


17 53 77 58 71 
90 26 59 21 19 
41 23 52 55 99 
60 20 50 81 69 
91 25 38 05 90 


34 50 57 74 37 


40 33 20 38 26 
96 83 50 87 75 
88 42 95 45 72 
33 27 14 34 09 
50 27 89 87 19 


55 74 30 77 40 
59 29 97 68 60 
48 55 90 65 72 
66 37 32 20 30 
68 49 69 10 82 


83 62 64 11 12 
06 09 19 74 66 
33 32 51 26 38 
42 38 97 01 50 
96 44 33 49 13 


64 05 71 95 80 
75 73 88 05 90 
3396 0275 19 
97 S1 40 14 02 
15 06 15 93 20 


22 35 85 15 13 
09 98 42 99 64 
54 87 66 47 54 
58 37 78 80 70 
87 59 36 22 41 


71 41 61 50 72 
23 52 23 33 12 
3104 49 69 96 
31 99 73 68 68 
94 58 28 41 36 


98 80 33 00 91 


13 89 51 03 74 
9712259347 
16 64 36 16 00 
45 59 34 68 49 
20 15 37 00 49 


44 22 78 84 26 
7191 38 67 54 
96 57 69 36 10 
77 84 57 03 29 
53 75 91 93 30 


67 19 00 71 74 
02 94 37 34 02 
79 78 45 04 91 
87 75 66 81 41 
34 86 82 53 91 


11 05 65 09 68 
5227411486 
07 60 62 93 $5 
04 02 33 31 08 
01 90 10 75 06 


92 03 51 59 77 
617162%15 
73 32 08 11 12 
42 10 50 67 42 
26 78 63 06 55 


12 41 94 96 26 
96 93 02 18 39 
10 47 48 45 88 
35 81 33 03 76 
45 37 59 03 09 


09 77 93 19 82 


17 76 37 13 04 
70 33 24 03 54 
04 43 18 66 79 
1272073445 
52 85 66 60 44 


04 33 46 09 52 
13 58 18 24 76 
96 46 92 42 45 
10 45 65 04 26 
34 25 20 57 27 


60 47 21 29 68 
76 70 90 30 86 
16 92 53 56 16 
40 01 74 91 62 
00 52 43 48 85 


76 83 20 37 90 
22 98 12 22 08 
59 33 82 43 90 
39 54 16 49 36 
40 78 78 89 62 


59 56 78 06 83 
06 51 29 16 93 
4495926316 
32 17 55 85 74 
1308 27 01 50 


4495273699 
07 02 18 36 07 
13 41 43 89 20 
24 30 12 48 60 
90 35 57 29 12 


74 94 80 04 04 


0774211930 
97 77 46 44 80 
94 77 24 21 90 
99 27 72 95 14 
38 68 88 11 80 


68 07 97 06 57 
15 54 55 95 52 
97 60 49 04 91 
11 04 96 67 24 
40 48 73 51 92 


02 02 37 03 31 
38 45 94 30 38 
02 75 50 95 98 
48 51 84 08 32 
27 55 26 89 62 


57 16 00 11 66 
07 52 74 95 80 
4937384459 
47 95 93 13 30 
02 6774 1733 


52 91 05 70 74 
58 05 77 09 51 
29 56 24 29 48 
94 44671694 
15 29 39 39 43 


02 96 74 30 83 
25 99 32 70 23 
97 17 14 49 17 
18 99 10 72 34 
82 62 54 65 60 


45 07 31 66 49 
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85 22 04 39 43 
09 79 13 77 48 
88 75 80 18 14 
90 96 23 70 00 


53 74 23 99 67 
63 38 06 86 54 
35 30 58 21 46 
63 43 36 82 69 
98 25 37 55 26 


02 63 21 17 69 
64 55 22 21 82 
85 07 26 13 89 
58 54 1624 15 
34 85 27 84 87 


03 92 18 27 46 
62 93 30 27 59 
08 45 93 15 22 
07 08 55 18 40 
01 85 89 95 66 


72 8471 14 35 
88 78 28 16 84 
45 17 75 65 57 
96 76 28 12 54 
43 31 67 72 30 


50 44 66 44 21 
22 66 22 15 86 
96 24 40 14 51 
31739161 19 
78 60 73 99 84 


84 37 90 61 56 
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73 81 53 94 79 
73 82 97 22 21 
22 95 75 42 49 
39 00 03 06 90 


61 32 28 69 84 
99 00 65 26 94 
06 72 17 10 94 
65 51 18 37 88 
01 91 82 81 46 


71 50 80 89 56 
48 22 28 06 00 
01 10 07 82 04 
51 54 44 82 00 
61 48 64 56 26 


57 99 16 96 56 
3775 41 66 48 
60 21 75 46 91 
45 44 75 13 90 
51 10 19 34 88 


19 11 58 49 26 
13 52 53 94 53 
28 40 19 72 12 
2201119425 
24 02 94 08 63 


66 06 58 05 62 
26 63 75 41 99 
23 22 30 88 57 
60 20 72 93 48 
43 89 94 36 45 


70 10 23 98 05 


33 62 46 86 28 
05 03 27 24 83 
39 32 82 22 49 
55 85 78 38 36 


94 62 67 86 24 
02 82 90 23 07 
25 21 31 75 86 
61 38 44 12 45 
74 71 12 94 97 


38 1570 11 48 
61 S4 13 43 91 
39 63 69 36 03 
62 61 65 04 69 
90 18 48 13 26 


30 33 72 85 22 
86 97 80 61 45 
98 77 27 85 42 
24 94 96 61 02 
15 84 97 19 75 


5011171776 
75 45 69 30 96 
25 12 74 75 67 
71 96 16 16 88 
38 32 36 66 02 


68 15 54 35 02 
58 42 36 72 24 
95 67 47 29 83 
98 57 07 23 69 
56 69 47 07 41 


85 11 34 76 60 


08 31 54 46 31 
72 89 44 05 60 
02 48 07 70 37 
94 37 30 69 32 


98 33 41 19 95 
79 62 67 80 60 
49 28 24 00 49 
32 92 85 88 65 
24 02 71 37 07 


43 40 45 86 98 
82 78 12 23 29 
69 11 15 83 80 
38 18 65 18 97 
37 70 15 42 57 


84 64 38 56 98 
23 53040163 
28 88 61 08 84 
57 55 66 83 15 
12 76 39 43 78 


86 31 57 20 18 
73 89 65 70 31 
60 40 60 81 19 
68 64 36 74 45 
69 36 38 25 39 


42 35 48 96 32 
58 37 52 18 51 
94 69 40 06 07 
65 95 39 69 58 
90 22 91 07 12 


76 48 45 34 60 


5394133847 
35 80 39 94 88 
16 04 61 67 87 
90 89 00 76 33 


47 53 53 38 09 
75 91 12 81 19 
55 65 79 78 07 
54 34 81 85 35 
03 92 18 66 75 


00 83 26 91 03 
06 66 24 12 27 
13 29 54 19 28 
85 72 13 49 21 
65 65 80 39 07 


99 01 30 98 64 
45 76 08 64 27 
69 62 03 42 73 
734237 1161 
6463 9108 25 


95 60 78 46 75 
99 17 43 48 76 
24 62 01 61 16 
19 59 50 88 92 
48 03 45 15 22 


14 52 41 52 48 
03 37 18 39 11 
18 16 3678 86 
56 80 30 19 44 
18 35 34 08 72 


01 64 18 39 96 





3667 1008 23 
07 28 59 07 48 
10 15 83 87 60 
55 19 68 97 65 


53 81 29 13 39 
51 86 32 68 92 
35 91 70 29 13 
37 71 67 95 13 
93 66 13 83 27 


02 96 08 45 65 
49 83 43 48 35 
84 60 71 62 46 
18 17 30 88 71 
79 69 10 61 78 


75 93 36 57 83 
38 30 92 29 03 
51 29 50 10 34 
21 31 38 86 24 
29 01 23 87 88 


95 33 95 22 00 
90 84 60 79 80 
46 40 62 98 82 
20 31 89 03 43 
71 59 73 05 50 


22 17 68 65 84 
19 36 27 59 46 
16 77 23 02 77 
78 43 76 71 61 
03 28 28 26 08 


93 22 53 64 39 
78 76 58 54 74 


98 93 35 08 86 
89 64 58 89 75 
79 24 31 66 56 
03 73 521656 


35 01 20 71 34 
33 98 74 66 99 
80 03 54 07 27 
20 02 44 95 94 
92 79 64 64 72 


13 05 00 41 84 
82 88 33 69 96 
40 80 81 30 37 
44911488 47 
71 32 76 95 62 


56201482 11 
06 28 81 39 38 
31 57 75 95 80 
37 79 81 53 74 
58 02 39 37 67 


18 74 72 00 18 
24 36 59 87 38 
54 97 20 56 95 
38 46 82 60 72 
08 22 23 71 77 


68 95 23 92 35 
13 79 93 37 55 
09 61 87 25 21 
20 44 90 32 64 
73 37 32 0405 


07 10 63 76 35 
92 38 70 96 92 


99 29 76 29 81 
83 85 62 27 89 
21 48 24 06 93 
00 53 55 90 27 


62 33 74 82 14 
40 14 71 94 58 
96 94 78 32 66 
64 85 04 05 72 
28 54 96 53 84 


93 07 547259 
7236041976 
34 39 23 05 38 
89 23 30 63 15 
87 00 22 58 40 


74 21 97 90 65 
62 25 06 84 63 
51 97 02 7477 
73 24 16 10 33 
42 10 14 20 92 


38 79 58 69 32 
82 07 53 89 35 
15 74 80 08 32 
32 14 82 99 70 
91 01932049 


87 02 22 57 51 
39 77 32 77 09 
28 06 24 25 93 
97 67 63 99 61 
60 30 16 09 05 


87 03 04 79 88 
52 06 79 79 45 


33 34 91 58 93 
30 14 78 $6 27 
91 98 94 05 49 
33 42 29 38 87 


53 73 19 09 03 
45 94 19 38 81 
50 95 52 74 33 
01 32 90 76 14 
48 14 52 98 94 


2145 570977 
474515 1860 
25 15 35 71 30 
56 34 20 47 89 
92 54 01 75 25 


96 42 68 63 86 
61 29 08 93 67 
7615484944 
52 83 90 94 76 
16 55 23 42 45 


81 76 80 26 92 
96 35 23 79 18 
16 46 70 50 80 
80 60 47 18 97 
82 96 59 26 94 


61 09 43 95 06 
85 52 05 30 30 
16 71 13 59 78 
46 38 03 93 22 
88 69 58 28 99 


08 13 13 85 $51 
82 63 18 27 44 


63 14 52 32 52 
86 63 59 80 02 
01 47 59 38 00 
22 13 88 83 34 


56 54 29 56 93 
14 44 99 81 07 
13 80 55 62 54 
53 89 74 60 41 
56 07 93 89 30 


19 48 56 27 44 
82 11 08 95 97 
88 12 57 21 77 
99 82 93 24 98 
431171 99 31 


74 54 13 26 94 
04 32 92 08 09 
18 55 63 77 09 
70 47 14 54 36 
54 96 09 11 06 


82 80 84 25 39 
05 98 90 07 35 
6772 16 42 79 
63 49 30 21 30 
66 39 67 98 60 


58 24 82 03 47 
47 83 51 62 74 
23 05 47 47 25 
69 81 21 99 21 
35 07 44 75 47 


55 34 57 72 69 
69 66 92 19 09 
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23 68 35 26 00 
15 39 25 70 99 
58 71 96 30 24 


57 35 27 33 72 
48 50 86 54 48 
61 96 48 95 03 
36 93 89 41 23 
18 87 00 42 31 


88 56 53 27 59 
09 72 95 84 29 
12 96 88 17 31 
85 94 57 24 16 
38 64 43 59 98 


53 44 09 42 72 
40 76 66 26 84 
02 17 79 18 05 
95 17 82 06 53 
35 76 22 42 92 


26 29 13 56 41 
77 80 20 75 82 
4640664452 
37 56 08 18 09 
61 865 61 68 66 


93 43 69 64 07 
21 96 60 12 99 
95 20 47 97 97 
97 86 21 78 73 
69 92 06 34 13 


04 31 1721 56 

61] 06 98 03 91 

85 93 85 86 88 
342 


99 53 93 61 28 
93 86 52 77 65 
18 46 23 34 27 


24 53 63 94 09 
22 06 34 72 52 
07 16 39 33 66 
29 70 83 63 51 
57 90 12 02 07 


33 35 72 67 47 
49 41 31 06 70 
65 19 69 02 83 
92 09 84 38 76 
98 77 87 68 07 


00 41 86 79 79 
57 99 99 90 37 
12 59 52 57 02 
31 51 10 96 46 
9% 11834480 


85 47 04 66 08 
72 82 32 99 90 
91 36 74 43 53 
77 53 84 46 47 
372747 39 19 


34 18 04 52 35 
11 20 99 45 18 
27 37 83 28 71 
1065 81 92 59 
59 71 74 17 32 


3373 99 19 87 
87 14 77 43 96 
72 87 08 62 40 


5273054834 
15 33 59 05 28 
85 13 99 24 44 


41 10 76 47 91 
82 21 15 65 20 
98 56 10 56 79 
99 74 20 52 36 
2347 37 1731 


77 34 55 45 70 
42 38 06 45 18 
60 75 86 90 68 
22 00 27 69 85 
91 5167 62 44 


68 47 22 00 20 
36 63 32 08 58 
22 07 90 47 03 
92 06 88 07 77 
34 68 35 48 77 


34 72 57 59 13 
63 95 73 76 63 
30 82 13 54 00 
31 91 189558 
84 83 70 07 48 


56 27 09 24 86 
48 13 93 55 34 
00 06 41 41 74 
58 76 17 14 97 
27 55 10 24 19 


26 72 39 27 67 
43 00 65 98 50 
1606 10 89 20 


56 85 U5 61 &6 
22 87 26 07 47 
49 18 09 79 49 


4404954966 
33 29947111 
77213027 12 
87 09 41 15 09 
54 08 01 88 63 


08 18 27 38 90 
64 84 73 31 65 
24 64 19 35 31 
29 81 94 78 70 
40 98 05 93 78 


3555 31 51 51 
37 40 13 68 97 
28 14 11 30 79 
56 11 350 81 69 
33 42409060 


82 43 80 46 15 
897344 9905 
78 45 63 98 35 
24 16 74 11 53 
53 21 40 06 71 


61 85 53 83 45 
18 37 79 49 90 
45 89 09 39 84 
04 76 62 16 17 
28 71 82 13 74 


53 77 57 68 93 
45 60 33 01 07 
23 21 34 74 97 


9092 10 70 80 
86 96 98 29 06 
74 16 32 23 02 


39 60 04 59 81 
15 91 29 12 03 
904 物 222362 
98 60 16 03 03 
39 41 88 92 10 


16 95 86 70 75 
52 53 3797 15 
56 61 87 39 12 
21 94 47 90 12 
23 32 65 41 18 


00 83 63 22 55 
.87 64 81 07 83 
20 69 22 40 98 
40 23 72 $51 39 
73 96 53 97 86 


38 26 61 70 04 
48 67 26 43 18 
55 03 36 67 68 
4410 13 85 57 
95 06 79 88 54 


19 90 79 99 00 
65 97 38 20 46 
516711 5249 
17 95 70 45 80 
63 52 52 01 41 


60 61 97 22 61 
98 99 46 50 47 
76 38 03 29 63 


21 74 32 47 4 
15 69 53 82 80 


02 89 08 04 49 
87 18 15 89 79 
98 83 71 94 22 
10 08 58 21 66 
47 90 56 10 08 


22 85 61 68 90 
67 80 43 79 33 
27 62 50 96 72 
33 78 80 87 15 
13 13 92 66 99 


10 27 S3 96 23 
28 41 50 61 88 
34 21 42 57 02 
61 81 77 23 23 
61 15 18 13 54 


91 76 21 64 64 
00 97 79 08 06 
36 46 18 34 94 
88 98 99 60 50 
04 37 59 87 21 


63 62 06 34 41 
78 47 23 53 90 
87 68 62 15 43 
47 60 92 10 77 
56 88 87 59 41 


02 57 45 86 67 
31 54 14 13 17 
28 50 16 43 36 
63 29 62 66 50 


73 96 07 94 52 
79 96 23 53 10 


20 21 14 68 86 
85 43 01 72 73 
59 97 50 99 52 
72 68 49 29 31 
88 02 84 27 83 


49 64 92 85 44 
1283114116 
79 4461 40 15 
38 30 06 38 21 
47 24 49 57 74 


71 50 54 36 23 
64 85 27 20 18 
59 19 18 97 48 
82 82 11 54 08 
16 86 20 26 88 


4491133297 
37 30 28 59 85 
75 20 80 27 77 
65 95 79 42 94 
05 02 03 24 17 


94 21 78 55 09 
34 41 92 45 71 
53 14 36 59 25 
88 59 53 11 52 
65 28 04 67 53 


73 4307 34 48 
48 62 11 90 60 
28 97 85 58 99 
02 63 45 52 38 


09 65 90 77 47 
65 39 07 16 29 


87 63 93 95 17 
08 61 74 51 69 
08 52 85 08 40 
89 85 84 46 06 
42 29 72 23 19 


16 40 12 89 88 
25 58 19 68 70 
14 53 40 65 39 
14 47 47 07 26 
32 25 43 62 17 


54 31 04 82 98 
83 36 36 05 56 
80 30 03 30 98 
53 28 70 58 96 
90 74 80 55 09 


75 31 62 66 54 
53 56 68 53 40 
78 91 69 16 00 
93 62 40 89 96 
47 97 81 56 51 


72 76 45 16 94 
09 23 70 70 07 
54 47 33 70 153 
66 25 69 07 04 
95 79 88 37 31 


44 26 879329 
68 12 93 64 28 
67 22 52 76 23 
67 63 47 54 75 


25 76 16 19 33 
4533024379 


11 29 01 95 80 
89 74 39 82 15 
87 80 61 65 31 
59 73 19 85 23 
66 56 45 65 79 


50 14 49 81 06 
77 02 54 00 52 
27 31 58 50 28 
54 96 87 53 32 
10 97 11 69 84 


04 14 12 15 09 
3971 65 09 62 
05 24 67 70 07 
4407 39 55 43 
14 53 90 51 17 


8480327577 
01 74 39 59 73 
08 43 18 73 69 
43 56 47 71 66 
92 34860182 


29 95 81 83 83 
12 38 92 79 43 
59 24 48 40 35 
48 68 64 71 06 
50 41 06 94 76 


77 09 61 67 84 
46 24 79 16 76 
24 70 36 54 54 
83 24 78 43 20 


53 05 79 53 30 
0287404145 


35 14 97 35 33 
94 51 33 41 67 
91 51 80 32 44 
65 09 29 75 63 
2071532025 


01 82774512 
53 43 37 15 26 
11 39 03 34 25 
40 36 40 96 76 
99 63 22 32 98 


26 78 25 47 47 
947662 1189 
84 97 50 87 40 
42 34 43 39 28 
5201 630159 


56 08 25 70 29 
30 19 99 85 48 
67 69 61 34 25 
46 76 29 67 02 
55 51 33 12 91 


79 88 01 97 30 
14 85 11 4723 
50 03 42 99 36 
61 65 70 22 12 
81 83 17 16 33 


06 69 44 77 75 
14 60 25 5101 
59 28 61 71 96 
92 63 13 47 48 
343 


45 65 58 26 51 


39 65 36 63 70 
7371 98 16 04 
72 20 56 20 11 
75 17 26 99 76 
7 48 60 82 29 


68 08 02 80 72 
14 23 98 61 67 
49 08 96 21 44 
78 37 06 08 43 
37 21 34 17 68 


14 29 09 34 04 
58 43 28 06 36 
10 43 67 29 70 
44 38 88 39 54 
90 69 59 19 51 


41 47 10 25 62 
91 94 146319 
80 06 54 18 66 
67 72 77 63 48 
59 40 24 13 27 


05 90 35 89 95 
44 43 80 69 98 
61 81 31 96 82 
42 88 07 10 05 
77 94 30 05 39 


78 83 19 76 16 

87 76 59 61 81 

91 43 05 96 47 

84 97 77 72 73 

87 41 60 76 83 
344 


76 96 59 38 72 


77 45 85 50 51 
29 18 94 $1 23 
72 65 71 08 86 
89 37 20 70 01 
81 30 15 39 14 


83 71 46 30 49 
70 52 8501 50 
25 27 99 41 28 
63 6] 62 42 29 
68 96 83 23 56 


87 83 07 55 07 
49 52 83 51 14 
80 62 80 03 42 
86 97 37 44 22 
85 39 52 85 13 


97 05 31 03 61 
75 89 114711 
09 18 94 06 19 
84 08 31 55 58 
79 26 88 86 30 


0161 16 96 94 
46 68 05 14 82 
00 57 25 60 59 
24 98 65 63 21 
.28 10 99 00 27 


94 11 68 84 26 
43 63 63 61 61 
55 78 99 95 24 
09 62 06 65 72 
44 88 96 07 80 


86 37 45 71 46 


74 13 39 35 22 
76 51 94 84 86 
79 57 95 13 91 
77 31 61 95 46 
48 38 75 93 29 


89 17 95 88 29 
01 84 02 78 43 
07 41 08 34 66 
39 68 95 10 96 
32 84 60 15 31 


76 58 30 83 64 
47 56 91 29 34 
10 80 21 38 84 
00 95 01 31 76 
07 28 37 07 61 


20 26 36 31 62 
31 56 34 19 09 
98 40 07 17 81 
24 33 45 77 58 
01 31 60 10 39 


50 78 13 69 36 
90 78 50 05 62 
4672601877 
4721 61 88 32 
12 73 73 99 12 


23 54 20 86 85 
65 76 36 95 90 
37 55 85 78 78 
87 12 49 03 60 
83 05 83 38 96 


4467761455 


30 53 36 02 95 
79 93 96 38 63 
97 48 72 66 48 
26 97 .05 73 51 
06 87 37 78 48 


02 39 56 03 46 
10 62 98 19 41 
19 42 74 39 91 
09 24 23 00 62 
4473573477 


87 29 25 58 84 
05 87 31 06 95 
90 56 35 03 09 
17 16 29 56 63 
11 16 36 27 03 


68 69 86 95 44 
79 57 92 36 59 
22 45 44 84 11 
80 45 67 93 82 
53 58 47 70 93 


37 68 53 37 31 
7779135744 
55 66 12 62 11 
27 80 30 21 60 
49 99 57 94 82 


23 86 66 99 07 
18 48 27 45 68 
01 4841 19 10 
41 15 20 76 27 
73 70 66 81 90 


44 88 01 62 12 


49 34 88 73 61 
08 58 25 58 94 
09 71 172489 
53 33 18 72 87 
45 56 00 84 47 


97 74 06 56 17 
18 83 99 47 99 
41 96 53 78 72 
56 12 80 73 16 
91 15 79 74 58 


86 50 60 00 25 
12 45 57 09 09 
43 12 74 49 14 
38 78 94 49 81 
78 86 72 04 95 


84 95 48 46 45 
1493 87 8I 40 
24 62 20 42 31 
75 70 16 08 24 
85 81 56 39 38 


71 26 35 03 71 
59 60 10 39 66 
08 99 55 64 57 
10 92 35 36 12 
96 88 57 17 91 


36 37 34 92 09 
27 23 65 30 72 
35 19 54 07 73 
50 47 0229 16 
30 56 10 48 59 


28 89 65 87 08 
30 29 43 65 42 
95 74 62 60 53 
01 85 54 96 72 
10 91 46 96 86 


05 33 18 08 51 
04 43 13 37 00 
05 85 40 25 24 
84 90 90 65 77 
28 55 53 09 48 


89 83 40 69 80 
73 20 96 V5 68 
10 89 07 76 21 
91 50 27 78 37 
03 45 44 66 88 


89 41 58 91 63 
13 43 00 97 26 
71 71 00 51 72 
19 28 15 00 41 
56 37 39 82 39 


39 27 52 89 11 
73 13 28 58 01 
81 60 84 51 57 
05 62 98 07 85 
62 97 16 29 18 


31 13 63 21 08 
97 38 35 34 19 
32 11 78 33 82 
81 99 13 37 05 
45 74 00 03 05 


11 84 13 69 01 


13 50 63 04 23 
78 66 28 55 80 
51 57 32 22 27 
66 86 65 64 60 
19 83 52 47 53 


S178 57 26 17 
79 68 96 26 60 
73 52 93 70 50 
63 99 25 69 02 
86 28 30 02 35 


97 96 47 59 97 
93 41 69 96 07 
40 24 74 36 42 
06 06 16 25 98 
97 81 26 03 89 


65 99 59 97 84 
16 91 21 32 41 
62 93 89 26 32 
92.2773 4038 
45 51 94 69 04 


00 81 06 28 48 
05 06 42 24 07 
12 68 46 55 89 
07 79 26 69 61 
5216162356 


16 01 92 58 21 
89 84 05 34 47 
51 99 98 44 39 
08 12 60 39 23 
69 99 47 26 52 


88 91 28 79 50 


25 47 57 91 13 
4746 41 90 08 
1272722777 
56 59 75 36 75 
65 00 51 93 51 


34 87 96 23 95 
70 39 83 66 56 
48 21 47 74 63 
09 04 03 35 79 
71 30 32 06 47 


56 33 24 87 36 
97 50 81 79 59 
40 33 04 46 24 
17 78 80 36 85 
39466721 17 


90 14 79 61 55 
60 22 66 72 17 
35 27 99 18 25 
37 11057516 
00 84 14 36 37 


12 08 05 75 26 
60 60 29 99 93 
60 09 71 87 89 
67 85 72 37 41 
62 95 80 97 63 


48 79 74 73 72 
88 09 31 54 88 
12 75 10 60 36 
61 73 84 89 18 
48 06 30 D0 18 


71 42 14 96 55 


52 62 24 19 94 91 67 48 57 10 


55 98 78 10 70 
44 6732 23 13 
46 4433 63 71 
30 80 05 19 29 


89 9 93 39 79 
62 03 55 86 57 
17 27 27 51 26 
19 79 95 07 21 
93 74 21 86 33 


1718169046 
42 37 13 81 83 
35 63 02 31 61 
26 41 77 63 37 
98 10 39 33 15 


56 16 88 87 60 
31 85 33 69 07 
78 12 03 09 70 
98 81 99 37 29 
95 66 39 01 09 


03 35 630577 
72 93 78 04 36 
70 81 10 95 91 
85 79 76 48 23 
32 25 34 03 36 


08 64 80 91 38 
97 96 86 01 69 
80 66 39 94 97 
26 02 04 37 95 
03 30 28 55 59 


98 59 96 01 36 


49 92 05 12 07 
67 95 07 76 30 
54 50 06 44 75 
56 23 27 19 03 


11 28 04 15 52 
77 55 33 62 02 
3596 29 00 45 
02 84 48 51 97 
49 90 21 69 74 


75 27 28 52 13 
92 42 85 04 31 
34 59 43 36 96 
71 63 94 94 33 
61 63 00 25 92 


32 15 99 67 43 
68 49 20 43 29 
50 93 19 35 56 
9220323967 
21 68 40 95 79 


13 81 20 67 58 
25 76 01 54 03 
83 79 68 20 66 
61 58 87 08 05 
48 84 60 37 65 


07 28 66 61 59 
46 13 95 65 96 
4236311659 
96 18 69 06 30 
66 10 71 44 05 


88 77 90 45 59 
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14 66 12 87 22 
40 25 67 87 82 
44 48 97 49 43 
41 94 54 06 57 


07 12 15 58 84 
64 27 90 43 52 
80 71 86 4103 
27 06 08 09 92 
54 68 97 20 54 


02 92 65 68 99 
83 52 57 78 62 
82 82 76 31 33 
38 61 34 09 49 
01 01 11 88 38 


21 66 14 38 28 
32 29 30 69 59 
04 59 21 65 47 
38 64 50 07 36 
48 33 50 83 53 


59 45 27 08 51 
87 27 17 30 37 
65 45 53 41 07 
48 28 01 83 84 


93 18 31 83 45 
18 26 32 96 83 
45 62 63 40 88 
26 22 59 28 27 
33 26 74 03 30 


05 53 15 26 70 
98 61 70 48 22 
85 13 41 38 10 
04 41 66 09 76 
03 10 16 82 24 


54 08 18 07 04 
68 50 33 31 47 
39 90 89 86 77 
56 50 45 94 25 
$59 77 64 59 90 


85 64 23 85 41 
48 69 49 02 58 
14 83 46 74 11 
09 11 21 91 73 


54 52 62 29 91 
50 58 45 27 57 
35 69 34 10 94 
38 58 22 14 79 
74 22 19 13 48 


04 69 22 64 07 
68 50 64 55 75 
16 47 61 43 77 
20 50 73 40 95 
39 58 20 12 39 


92 17 63 36 75 
15 64 88 75 27 
46 86 86 88 86 
48 28 48 30 51 
58 92 62 50 18 


64 72 08 59 44 
98 02 50 58 11 
76 66 63 60 08 
97 28 44 74 06 


53 58 54 66 05 
14 96 39 64 85 
32 22 52 04 74 
24 32 12 38 42 
30 28 01 92 49 


0473257482 
4270320960 
83 27 19 70 41 
24 77 95 73 20 
82 77 02 18 88 


3314111178 
04 51 41 61 96 
50 09 13 24 91 
60 73 73 03 87 
93 09 45 89 06 


67 98 36 65 56 
95 39 06 35 63 
90 54 33 65 84 
22 30 95 69 72 


4719639275 
73 87 96 76 23 
69 63 21 83 41 
33 56 90 92 57 
58 61 52 27 03 


78 35 22 21 88 
58 70 61 4397 
3478 77 60 25 
47 42 80 61 03 
3311491516 


97 30 53 62 33 
86 62 93 66 71 
54 80 67 78 66 
68 47 37 10 84 
13 26 98 86 29 



































习题 参考 答案 


第 2 


613 800( 元 ),s( 了 7) = 79 034( 元 ) ,nm = 465 


章 

4. 了 =3,o=5.2,S2 = 6.5 

5. 

6 93%,s(p) = 2.54%,n = 1 668 


Y= 
“p= 
7. Y = 20.7( 分 钟 ) ,估计 95% 的 置信 区 间 (18.40,23.00) 
38. p=6%,s(p) = 3.4%,n = 2121 
第 3 章 
3. (D3 = 20.07( 元 ),s(3) = 3.08( 元 ) 
(2) 按 比例 分 配 x = 186,n1 = 57,n2 = 92,n3 = 37 
Neyman 分 配 ma = 175,n) = 33,n2 = 99,n3 = 43 
4. (1)pe = 92.4%,s (pa) = 1.99% 
(2) 按 比 例 分 配 ”= 2 663, 各 层 样本 量 为 :479,559,373,240,426,586 
Neyman 分 配 ，= 2 565, 各 层 样本 量 为 :536.520,417,304,396,392 
5. yu = 75.79( 元 ) ,置信 区 间 (60.63.90.95) 
6.n= 9 
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7.(1) 错 (2) 错 (3) 错 (4) 对 (5) 样 本 量 足 够 大 时 是 对 的 
8. (Dp = 3%,5(p) = 1.71%;(2) pp = 2.68% ,sppa) = 1.64% 
第 4 章 
4. 良 = 1.046 8( 抑 ),s( 民 ) = 0.090 0( 元 ) 
5. (1) Yh = 231 611.86( 元 ),s( YR) = 1 536.92( 元 ); 
= 231 581.66( 元 ),s(,) = 1 475.42( 元 ) 
《2) 比率 估计 :(5.707% ,8.494%); 回 妇 估 计 :(5.750% ,8.424%) 
(3) 对 于 比 估 计 ,n = 13; 对 于 回归 估计 ,n = 12 


6. rf 由 ,x 人 3 均 可 ,x 人 更 好 
7.(2) 含 傅 分 别 为 : - 0.027 4,0.004 0, MSE 分 别 为 :0.122 1,0.068 6 


第 5 章 
5. Y =2217.01,s(Y) = 142.544 
7. MSE(5) = 11.5, MSE(Yg) = 0.961 3, MSE{ Pry) = 0.589 7 


第 6 章 
2. (1)7 = 19.73,v(3) = 0.79 


(2) Y¥ = Ni = 12 311.52,v( ¥) = 554.622 





(3) ¥ = Mo3 = 14 008.3,v0(9) = MBv(3) (4)n=14 


3.5=1.875 Y=7500 vy) = 0.0089 v(Y) = 141 900 
4. p=0.4 vw(p) = 0.0034 
{1)p=0.7091,s(p) =0.0241 (2)n=7 


a 


-J 


.Y= 3532.8,2Y v(Y) = 539.50 
.3=5.91,2V (5) = 0.322 


8. Y = 495 392.4( 吨 ),2W v( 六) = 19 473 
9. (Di=0.5M=5 (2)t=2M=1 
第 7 章 
3. (1) 样本 单元 :5,11,17,23,29,35,1 
(2)Sethi 对 称 系统 样本 单元 :5,6,15,16,25,26,35 
Singn 对 称 系统 样本 单元 :5,31,10,26,15,21,20 
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4 简单 随机 抽样 :VD.s) = 人 


4 
等 距 抽样 :VY(j) = 填补 (元 了)2 = 0.001 41 
全 


Vlyy) < VF) 


5. 估计 汉族 所 占 的 比例 ,采用 等 距 抽 样 效 果 最 好 


6.(1) 估计 男性 所 占 比例 : 


简单 随机 抽样 方差 V(3,) -人 as? = 0.020 4 


， 
等 距 抽样 方差 V(36) = 二 D>(5. ~ 了》 = 0.0216 


V3) > Van) 
{2) 估计 孩子 所 占 比 例 : 


简单 随机 抽样 方差 V3,) = 汪 





2S2 = 0.020 4 


等 距 抽样 方差 V(7o) = 二 2 ( 克 ~ 了 > = 0.0776 


V5) > Vlyss) 


《3) 估计 具有 某 种 职业 的 住户 中 人 员 的 比例 ， 








简单 随机 抽样 方差 V (3,,)= 


等 距 抽样 方差 V(5。) = 十 > (到 -了 


kA 


Vg) < Vy) 
7. 简单 随机 抽样 方差 VF) = 5.33， 





六 一 mea 
RS 


0.019 23 


=0.0016 


等 中 抽样 方差 Y(z) = 2,V (5,) < V (5) 


8. (1) 书稿 的 平均 错字 数 := 4.733 3 
(2) 用 合并 层 方法 估计 抽样 方差: 
= lt. 2 








v3 = 和 .过 一 1D)2 = 0.131 556 








(3) 用 这 续 关 方法 估计 样 方差 ; 


工 一 加 
六 067 356 





(4) 用 交叉 子 样本 法 信 计 抽样 方差; 多 解 ,如 m = 2， 


vs = zs ~ 部) = 0.04 


m(m 
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第 8 章 
3. 
4. 
5. 
6. 
第 9 章 


~ 


~ 


oo 


ms 


ke 


~ 
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p =0.3,s(p) = 0.077 
m=2,n=20 

(1)5$ = 3.3,s(5) = 0.404 3;(2)5 = 3.952 1,s(5) = 0.267 4 
5= 34,s(5) =6 


. 全 县 棉花 种 植 面积 估计 为 :了 = Nyw = 2 000 x 164.27 = 328 540 


了 抽样 标准 误 估 计 为 :s(Y) = Ns(54n) = 38 289.68 


. (1) 二 重 抽样 中 最 优 的 mm = ns = 268,m = 1271 


二 重 分 层 抽 样 方差 估计 为 :vw( prp) = 6.67 
(2) 不 分 层 的 简单 随机 抽样 方差 ww = 8.33, 玖 二 重 抽样 效率 高 


(3) 全 > 9 时 ,二 重 抽样 的 效率 高 于 简单 随机 抽样 


. (1) 用 二 重 比 估计 法 估计 该 地 区 年 末 牛 的 总 头 数 为 :了 = 745 713.2 





了 抽样 标准 误 为 :s(Y) = Ns(3sp) = 1 238 x VT404.583 
= 46 397.48 

(2) 使 用 二 重 回归 估计 法 估计 

Tp = 一 了 +8( 却 一 工 ) = 599.599 6 

该 地 区 年 末 牛 的 总 头 数 炙 = 742 304.3 


之 抽样 标准 误 为 :5(Y) = Ns (5p) = 1 238 x VT33T.031 
= 45 166.32 








. 相对 于 = 来 说 ,mw 必须 大 于 26n 
.了 的 二 重 回 归 估 计量 的 标准 差 为 1.05 


. 《1) 如 果 cl = 7 各 ,二 重 抽样 的 样本 最 优 分 配方 案 : 


100’ 一 
f=0.133,f; = 0.229,n’ = 612,n1 = 64,n2 = 30 


此 时 ,vw (Fap) = 4.71 > 
(2) 二 < 0.11, 二 重 抽样 的 精度 高 于 简单 随机 抽样 
《六 一 到 


SD Wt EW 7 -st 
7 


代 人 yun 的 方差 公式 即 可 








1. 该 镇 失业 率 估计 六 = 0.090 3 
用 随机 组 法 进行 方差 估计 wi( 展 ) = 0.000 007 

2. 学 生 对 学 校 伙 食 的 满意 比率 R 的 估计 为 : 尺 = 0.503 464 
请 的 方差 估计 vw(RR) = 4D — R)? = 0.000 189 


3, 该 镇 人 口 出 生 率 估计 六 = 0.009 58 


用 刀 切 法 进行 方差 估计 wj ( 闵 ) = 5.85 x 107 
第 11 章 
该 总 体 真实 均值 为 了 = 95% x 45.4+ 5% x 59.0 = 46.08 
(1) 对 于 一 个 在 60% 层 中 抽样 的 方法 : 
bias = 40.7 - 46.08 = - 5.38 
V5) = L000 pp _ 40.7(100 -40.7) _ 2 414 





an nn 
MSE(3) = VB) + bias? = 2 414 + 28.94 
(2) 当 回答 率 为 60% 时 ,由 (1) 有 /RD > v28. 史 >5 
即 均 方 误差 的 根 不 可 能 达到 5% 


当 回答 率 为 80% 时 ,bias = 43.5 - 46.08 = - 2.58 
当 回 答 率 高 于 80% 时 , | bias | < 2.58 


而 对 于 所 有 的 回答 率 方法 均 有 V(5) < 2300 
因而 当 采用 80% 或 更 高 回答 率 时 ,MSEt5) < 2 300 + 2.58: 
只 要 当 ”稍稍 大 于 100, 便 有 v MSE(5) < 5 


(3) 用 90% 方法 时 ,pias = 44.8 - 46.08 = -1.28 
VSEG] ~ V VO) + bar = 2 2 (1.28) -2 
得 = 1047 


采用 用 95% 方法 时 ,pias = 45.4 - 46.08 - -0.68 
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V MSECS) = V VI) + bias? = .454.6 
得 nn = 701 


5. 由 土 题 (3) 知 , 当 回答 率 为 90% 时 ,nn = 1 047 





总 费用 = 5(1 047) = 5 235 
当 回答 率 为 95% 时 ,n = 701 


总 费用 = 701( 吕 和 js + (六 5% 务 j20 = = 4 058 











本 0.68) = 2 
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